Merge busybox into merge

Fix merge conflict in miscutils/less.c. Use exit_SUCCESS() where possible.
author: Ron Yorston <rmy@pobox.com> 2022-01-06 07:46:38 +0000
committer: Ron Yorston <rmy@pobox.com> 2022-01-06 07:46:38 +0000
commit: b8751bbc9ac24e71fbe1e79c69074b4c87a134d8 (patch)
tree: 336d653df8387b9b1d3c6e46caa373c00cb9b2b2 /libbb
parent: b15f68214da209b5b293039c09c00f490c0cc193 (diff)
parent: 6062c0d19bc201cbeb61b8875598cdd7a14a5ae0 (diff)
download: busybox-w32-b8751bbc9ac24e71fbe1e79c69074b4c87a134d8.tar.gz
busybox-w32-b8751bbc9ac24e71fbe1e79c69074b4c87a134d8.tar.bz2
busybox-w32-b8751bbc9ac24e71fbe1e79c69074b4c87a134d8.zip
9 files changed, 2014 insertions, 26 deletions
diff --git a/libbb/Config.src b/libbb/Config.src
index 24b31fad9..c80bee286 100644
--- a/libbb/Config.src
+++ b/libbb/Config.src
@@ -42,21 +42,33 @@ config MD5_SMALL
        default 1  # all "fast or small" options default to small
        range 0 3
        help
-        Trade binary size versus speed for the md5sum algorithm.
+        Trade binary size versus speed for the md5 algorithm.
        Approximate values running uClibc and hashing
        linux-2.4.4.tar.bz2 were:
-        value               user times (sec)  text size (386)
+        value           user times (sec)  text size (386)
-        0 (fastest)         1.1                6144
+        0 (fastest)     1.1               6144
-        1                   1.4                5392
+        1               1.4               5392
-        2                   3.0                5088
+        2               3.0               5088
-        3 (smallest)        5.1                4912
+        3 (smallest)    5.1               4912
+config SHA1_SMALL
+        int "SHA1: Trade bytes for speed (0:fast, 3:slow)"
+        default 3  # all "fast or small" options default to small
+        range 0 3
+        help
+        Trade binary size versus speed for the sha1 algorithm.
+                        throughput MB/s   size of sha1_process_block64
+        value           486  x86-64       486   x86-64
+        0               367  375          3657  3502
+        1               224  229           654   732
+        2,3             200  195           358   380
 config SHA3_SMALL
        int "SHA3: Trade bytes for speed (0:fast, 1:slow)"
        default 1  # all "fast or small" options default to small
        range 0 1
        help
-        Trade binary size versus speed for the sha3sum algorithm.
+        Trade binary size versus speed for the sha3 algorithm.
        SHA3_SMALL=0 compared to SHA3_SMALL=1 (approximate):
        64-bit x86: +270 bytes of code, 45% faster
        32-bit x86: +450 bytes of code, 75% faster
diff --git a/libbb/Kbuild.src b/libbb/Kbuild.src
index 9b37b174d..41bf54e75 100644
--- a/libbb/Kbuild.src
+++ b/libbb/Kbuild.src
@@ -45,6 +45,7 @@ lib-y += lineedit.o lineedit_ptr_hack.o
 lib-y += llist.o
 lib-y += make_directory.o
 lib-y += hash_md5_sha.o
+lib-y += hash_md5_sha_x86-64.o
 # Alternative (disabled) MD5 implementation
 #lib-y += hash_md5prime.o
 lib-y += messages.o
diff --git a/libbb/fflush_stdout_and_exit.c b/libbb/fflush_stdout_and_exit.c
index 5df74170e..33e28ae34 100644
--- a/libbb/fflush_stdout_and_exit.c
+++ b/libbb/fflush_stdout_and_exit.c
@@ -13,10 +13,15 @@
 */
 void FAST_FUNC fflush_stdout_and_exit(int retval)
 {
-        xfunc_error_retval = retval;
        if (fflush(stdout))
                bb_simple_perror_msg_and_die(bb_msg_standard_output);
+        xfunc_error_retval = retval;
        /* In case we are in NOFORK applet. Do not exit() directly,
         * but use xfunc_die() */
        xfunc_die();
 }
+void FAST_FUNC fflush_stdout_and_exit_SUCCESS(void)
+{
+        fflush_stdout_and_exit(EXIT_SUCCESS);
+}
diff --git a/libbb/hash_md5_sha.c b/libbb/hash_md5_sha.c
index e0db8ce67..ee19c1cb7 100644
--- a/libbb/hash_md5_sha.c
+++ b/libbb/hash_md5_sha.c
@@ -8,6 +8,9 @@
 */
 #include "libbb.h"
+#define STR1(s) #s
+#define STR(s) STR1(s)
 #define NEED_SHA512 (ENABLE_SHA512SUM || ENABLE_USE_BB_CRYPT_SHA)
 /* gcc 4.2.1 optimizes rotr64 better with inline than with macro
@@ -390,7 +393,6 @@ static void FAST_FUNC md5_process_block64(md5_ctx_t *ctx)
        OP(FI, D, A, B, C, 11, 10, 0xbd3af235);
        OP(FI, C, D, A, B, 2, 15, 0x2ad7d2bb);
        OP(FI, B, C, D, A, 9, 21, 0xeb86d391);
-# undef OP
 # endif
        /* Add checksum to the starting values */
        ctx->hash[0] += A;
@@ -399,6 +401,7 @@ static void FAST_FUNC md5_process_block64(md5_ctx_t *ctx)
        ctx->hash[3] += D;
 #endif
 }
+#undef OP
 #undef FF
 #undef FG
 #undef FH
@@ -490,18 +493,410 @@ unsigned FAST_FUNC md5_end(md5_ctx_t *ctx, void *resbuf)
 * then rebuild and compare "shaNNNsum bigfile" results.
 */
+#if CONFIG_SHA1_SMALL == 0
+# if defined(__GNUC__) && defined(__i386__)
+static void FAST_FUNC sha1_process_block64(sha1_ctx_t *ctx UNUSED_PARAM)
+{
+        BUILD_BUG_ON(offsetof(sha1_ctx_t, hash) != 76);
+        asm(
+"\n\
+        pushl   %ebp    #                                           \n\
+        pushl   %edi    #                                           \n\
+        pushl   %esi    #                                           \n\
+        pushl   %ebx    #                                           \n\
+        pushl   %eax                                                \n\
+        movl    $15, %edi                                           \n\
+1:                                                                  \n\
+        movl    (%eax,%edi,4), %esi                                 \n\
+        bswap   %esi                                                \n\
+        pushl   %esi                                                \n\
+        decl    %edi                                                \n\
+        jns     1b                                                  \n\
+        movl    80(%eax), %ebx  # b = ctx->hash[1]                  \n\
+        movl    84(%eax), %ecx  # c = ctx->hash[2]                  \n\
+        movl    88(%eax), %edx  # d = ctx->hash[3]                  \n\
+        movl    92(%eax), %ebp  # e = ctx->hash[4]                  \n\
+        movl    76(%eax), %eax  # a = ctx->hash[0]                  \n\
+#Register and stack use:                                            \n\
+# eax..edx: a..d                                                    \n\
+# ebp: e                                                            \n\
+# esi,edi: temps                                                    \n\
+# 4*n(%esp): W[n]                                                   \n\
+"
+#define RD1As(a,b,c,d,e, n, RCONST) \
+"\n\
+        ##movl  4*"n"(%esp), %esi       # n=0, W[0] already in %esi \n\
+        movl    "c", %edi               # c                         \n\
+        xorl    "d", %edi               # ^d                        \n\
+        andl    "b", %edi               # &b                        \n\
+        xorl    "d", %edi               # (((c ^ d) & b) ^ d)       \n\
+        leal    "RCONST"("e",%esi), "e" # e += RCONST + W[n]        \n\
+        addl    %edi, "e"               # e += (((c ^ d) & b) ^ d)  \n\
+        movl    "a", %esi               #                           \n\
+        roll    $5, %esi                # rotl32(a,5)               \n\
+        addl    %esi, "e"               # e += rotl32(a,5)          \n\
+        rorl    $2, "b"                 # b = rotl32(b,30)          \n\
+"
+#define RD1Bs(a,b,c,d,e, n, RCONST) \
+"\n\
+        movl    4*"n"(%esp), %esi       # W[n]                      \n\
+        movl    "c", %edi               # c                         \n\
+        xorl    "d", %edi               # ^d                        \n\
+        andl    "b", %edi               # &b                        \n\
+        xorl    "d", %edi               # (((c ^ d) & b) ^ d)       \n\
+        leal    "RCONST"("e",%esi), "e" # e += RCONST + W[n]        \n\
+        addl    %edi, "e"               # e += (((c ^ d) & b) ^ d)  \n\
+        movl    "a", %esi               #                           \n\
+        roll    $5, %esi                # rotl32(a,5)               \n\
+        addl    %esi, "e"               # e += rotl32(a,5)          \n\
+        rorl    $2, "b"                 # b = rotl32(b,30)          \n\
+"
+#define RD1Cs(a,b,c,d,e, n13,n8,n2,n, RCONST) \
+"\n\
+        movl    4*"n13"(%esp), %esi     # W[(n+13) & 15]            \n\
+        xorl    4*"n8"(%esp), %esi      # ^W[(n+8) & 15]            \n\
+        xorl    4*"n2"(%esp), %esi      # ^W[(n+2) & 15]            \n\
+        xorl    4*"n"(%esp), %esi       # ^W[n & 15]                \n\
+        roll    %esi                    #                           \n\
+        movl    %esi, 4*"n"(%esp)       # store to W[n & 15]        \n\
+        movl    "c", %edi               # c                         \n\
+        xorl    "d", %edi               # ^d                        \n\
+        andl    "b", %edi               # &b                        \n\
+        xorl    "d", %edi               # (((c ^ d) & b) ^ d)       \n\
+        leal    "RCONST"("e",%esi), "e" # e += RCONST + mixed_W     \n\
+        addl    %edi, "e"               # e += (((c ^ d) & b) ^ d)  \n\
+        movl    "a", %esi               #                           \n\
+        roll    $5, %esi                # rotl32(a,5)               \n\
+        addl    %esi, "e"               # e += rotl32(a,5)          \n\
+        rorl    $2, "b"                 # b = rotl32(b,30)          \n\
+"
+#define RD1A(a,b,c,d,e, n) RD1As("%e"STR(a),"%e"STR(b),"%e"STR(c),"%e"STR(d),"%e"STR(e), STR((n)), STR(RCONST))
+#define RD1B(a,b,c,d,e, n) RD1Bs("%e"STR(a),"%e"STR(b),"%e"STR(c),"%e"STR(d),"%e"STR(e), STR((n)), STR(RCONST))
+#define RD1C(a,b,c,d,e, n) RD1Cs("%e"STR(a),"%e"STR(b),"%e"STR(c),"%e"STR(d),"%e"STR(e), STR(((n+13)&15)), STR(((n+8)&15)), STR(((n+2)&15)), STR(((n)&15)), STR(RCONST))
+#undef  RCONST
+#define RCONST 0x5A827999
+        RD1A(ax,bx,cx,dx,bp, 0) RD1B(bp,ax,bx,cx,dx, 1) RD1B(dx,bp,ax,bx,cx, 2) RD1B(cx,dx,bp,ax,bx, 3) RD1B(bx,cx,dx,bp,ax, 4)
+        RD1B(ax,bx,cx,dx,bp, 5) RD1B(bp,ax,bx,cx,dx, 6) RD1B(dx,bp,ax,bx,cx, 7) RD1B(cx,dx,bp,ax,bx, 8) RD1B(bx,cx,dx,bp,ax, 9)
+        RD1B(ax,bx,cx,dx,bp,10) RD1B(bp,ax,bx,cx,dx,11) RD1B(dx,bp,ax,bx,cx,12) RD1B(cx,dx,bp,ax,bx,13) RD1B(bx,cx,dx,bp,ax,14)
+        RD1B(ax,bx,cx,dx,bp,15) RD1C(bp,ax,bx,cx,dx,16) RD1C(dx,bp,ax,bx,cx,17) RD1C(cx,dx,bp,ax,bx,18) RD1C(bx,cx,dx,bp,ax,19)
+#define RD2s(a,b,c,d,e, n13,n8,n2,n, RCONST) \
+"\n\
+        movl    4*"n13"(%esp), %esi     # W[(n+13) & 15]            \n\
+        xorl    4*"n8"(%esp), %esi      # ^W[(n+8) & 15]            \n\
+        xorl    4*"n2"(%esp), %esi      # ^W[(n+2) & 15]            \n\
+        xorl    4*"n"(%esp), %esi       # ^W[n & 15]                \n\
+        roll    %esi                    #                           \n\
+        movl    %esi, 4*"n"(%esp)       # store to W[n & 15]        \n\
+        movl    "c", %edi               # c                         \n\
+        xorl    "d", %edi               # ^d                        \n\
+        xorl    "b", %edi               # ^b                        \n\
+        leal    "RCONST"("e",%esi), "e" # e += RCONST + mixed_W     \n\
+        addl    %edi, "e"               # e += (c ^ d ^ b)          \n\
+        movl    "a", %esi               #                           \n\
+        roll    $5, %esi                # rotl32(a,5)               \n\
+        addl    %esi, "e"               # e += rotl32(a,5)          \n\
+        rorl    $2, "b"                 # b = rotl32(b,30)          \n\
+"
+#define RD2(a,b,c,d,e, n) RD2s("%e"STR(a),"%e"STR(b),"%e"STR(c),"%e"STR(d),"%e"STR(e), STR(((20+n+13)&15)), STR(((20+n+8)&15)), STR(((20+n+2)&15)), STR(((20+n)&15)), STR(RCONST))
+#undef  RCONST
+#define RCONST 0x6ED9EBA1
+        RD2(ax,bx,cx,dx,bp, 0) RD2(bp,ax,bx,cx,dx, 1) RD2(dx,bp,ax,bx,cx, 2) RD2(cx,dx,bp,ax,bx, 3) RD2(bx,cx,dx,bp,ax, 4)
+        RD2(ax,bx,cx,dx,bp, 5) RD2(bp,ax,bx,cx,dx, 6) RD2(dx,bp,ax,bx,cx, 7) RD2(cx,dx,bp,ax,bx, 8) RD2(bx,cx,dx,bp,ax, 9)
+        RD2(ax,bx,cx,dx,bp,10) RD2(bp,ax,bx,cx,dx,11) RD2(dx,bp,ax,bx,cx,12) RD2(cx,dx,bp,ax,bx,13) RD2(bx,cx,dx,bp,ax,14)
+        RD2(ax,bx,cx,dx,bp,15) RD2(bp,ax,bx,cx,dx,16) RD2(dx,bp,ax,bx,cx,17) RD2(cx,dx,bp,ax,bx,18) RD2(bx,cx,dx,bp,ax,19)
+#define RD3s(a,b,c,d,e, n13,n8,n2,n, RCONST) \
+"\n\
+        movl    "b", %edi               # di: b                     \n\
+        movl    "b", %esi               # si: b                     \n\
+        orl     "c", %edi               # di: b | c                 \n\
+        andl    "c", %esi               # si: b & c                 \n\
+        andl    "d", %edi               # di: (b | c) & d           \n\
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)   \n\
+        movl    4*"n13"(%esp), %esi     # W[(n+13) & 15]            \n\
+        xorl    4*"n8"(%esp), %esi      # ^W[(n+8) & 15]            \n\
+        xorl    4*"n2"(%esp), %esi      # ^W[(n+2) & 15]            \n\
+        xorl    4*"n"(%esp), %esi       # ^W[n & 15]                \n\
+        roll    %esi                    #                           \n\
+        movl    %esi, 4*"n"(%esp)       # store to W[n & 15]        \n\
+        addl    %edi, "e"               # += ((b | c) & d) | (b & c)\n\
+        leal    "RCONST"("e",%esi), "e" # e += RCONST + mixed_W     \n\
+        movl    "a", %esi               #                           \n\
+        roll    $5, %esi                # rotl32(a,5)               \n\
+        addl    %esi, "e"               # e += rotl32(a,5)          \n\
+        rorl    $2, "b"                 # b = rotl32(b,30)          \n\
+"
+#define RD3(a,b,c,d,e, n) RD3s("%e"STR(a),"%e"STR(b),"%e"STR(c),"%e"STR(d),"%e"STR(e), STR(((40+n+13)&15)), STR(((40+n+8)&15)), STR(((40+n+2)&15)), STR(((40+n)&15)), STR(RCONST))
+#undef  RCONST
+#define RCONST 0x8F1BBCDC
+        RD3(ax,bx,cx,dx,bp, 0) RD3(bp,ax,bx,cx,dx, 1) RD3(dx,bp,ax,bx,cx, 2) RD3(cx,dx,bp,ax,bx, 3) RD3(bx,cx,dx,bp,ax, 4)
+        RD3(ax,bx,cx,dx,bp, 5) RD3(bp,ax,bx,cx,dx, 6) RD3(dx,bp,ax,bx,cx, 7) RD3(cx,dx,bp,ax,bx, 8) RD3(bx,cx,dx,bp,ax, 9)
+        RD3(ax,bx,cx,dx,bp,10) RD3(bp,ax,bx,cx,dx,11) RD3(dx,bp,ax,bx,cx,12) RD3(cx,dx,bp,ax,bx,13) RD3(bx,cx,dx,bp,ax,14)
+        RD3(ax,bx,cx,dx,bp,15) RD3(bp,ax,bx,cx,dx,16) RD3(dx,bp,ax,bx,cx,17) RD3(cx,dx,bp,ax,bx,18) RD3(bx,cx,dx,bp,ax,19)
+#define RD4As(a,b,c,d,e, n13,n8,n2,n, RCONST) \
+"\n\
+        movl    4*"n13"(%esp), %esi     # W[(n+13) & 15]            \n\
+        xorl    4*"n8"(%esp), %esi      # ^W[(n+8) & 15]            \n\
+        xorl    4*"n2"(%esp), %esi      # ^W[(n+2) & 15]            \n\
+        xorl    4*"n"(%esp), %esi       # ^W[n & 15]                \n\
+        roll    %esi                    #                           \n\
+        movl    %esi, 4*"n"(%esp)       # store to W[n & 15]        \n\
+        movl    "c", %edi               # c                         \n\
+        xorl    "d", %edi               # ^d                        \n\
+        xorl    "b", %edi               # ^b                        \n\
+        leal    "RCONST"("e",%esi), "e" # e += RCONST + mixed_W     \n\
+        addl    %edi, "e"               # e += (c ^ d ^ b)          \n\
+        movl    "a", %esi               #                           \n\
+        roll    $5, %esi                # rotl32(a,5)               \n\
+        addl    %esi, "e"               # e += rotl32(a,5)          \n\
+        rorl    $2, "b"                 # b = rotl32(b,30)          \n\
+"
+#define RD4Bs(a,b,c,d,e, n13,n8,n2,n, RCONST) \
+"\n\
+        movl    4*"n13"(%esp), %esi     # W[(n+13) & 15]            \n\
+        xorl    4*"n8"(%esp), %esi      # ^W[(n+8) & 15]            \n\
+        xorl    4*"n2"(%esp), %esi      # ^W[(n+2) & 15]            \n\
+        xorl    4*"n"(%esp), %esi       # ^W[n & 15]                \n\
+        roll    %esi                    #                           \n\
+        ##movl  %esi, 4*"n"(%esp)       # store to W[n & 15] elided \n\
+        movl    "c", %edi               # c                         \n\
+        xorl    "d", %edi               # ^d                        \n\
+        xorl    "b", %edi               # ^b                        \n\
+        leal    "RCONST"("e",%esi), "e" # e += RCONST + mixed_W     \n\
+        addl    %edi, "e"               # e += (c ^ d ^ b)          \n\
+        movl    "a", %esi               #                           \n\
+        roll    $5, %esi                # rotl32(a,5)               \n\
+        addl    %esi, "e"               # e += rotl32(a,5)          \n\
+        rorl    $2, "b"                 # b = rotl32(b,30)          \n\
+"
+#define RD4A(a,b,c,d,e, n) RD4As("%e"STR(a),"%e"STR(b),"%e"STR(c),"%e"STR(d),"%e"STR(e), STR(((60+n+13)&15)), STR(((60+n+8)&15)), STR(((60+n+2)&15)), STR(((60+n)&15)), STR(RCONST))
+#define RD4B(a,b,c,d,e, n) RD4Bs("%e"STR(a),"%e"STR(b),"%e"STR(c),"%e"STR(d),"%e"STR(e), STR(((60+n+13)&15)), STR(((60+n+8)&15)), STR(((60+n+2)&15)), STR(((60+n)&15)), STR(RCONST))
+#undef  RCONST
+#define RCONST 0xCA62C1D6
+        RD4A(ax,bx,cx,dx,bp, 0) RD4A(bp,ax,bx,cx,dx, 1) RD4A(dx,bp,ax,bx,cx, 2) RD4A(cx,dx,bp,ax,bx, 3) RD4A(bx,cx,dx,bp,ax, 4)
+        RD4A(ax,bx,cx,dx,bp, 5) RD4A(bp,ax,bx,cx,dx, 6) RD4A(dx,bp,ax,bx,cx, 7) RD4A(cx,dx,bp,ax,bx, 8) RD4A(bx,cx,dx,bp,ax, 9)
+        RD4A(ax,bx,cx,dx,bp,10) RD4A(bp,ax,bx,cx,dx,11) RD4A(dx,bp,ax,bx,cx,12) RD4A(cx,dx,bp,ax,bx,13) RD4A(bx,cx,dx,bp,ax,14)
+        RD4A(ax,bx,cx,dx,bp,15) RD4A(bp,ax,bx,cx,dx,16) RD4B(dx,bp,ax,bx,cx,17) RD4B(cx,dx,bp,ax,bx,18) RD4B(bx,cx,dx,bp,ax,19)
+"\n\
+        movl    4*16(%esp), %esi        #                           \n\
+        addl    $4*(16+1), %esp         #                           \n\
+        addl    %eax, 76(%esi)          # ctx->hash[0] += a         \n\
+        addl    %ebx, 80(%esi)          # ctx->hash[1] += b         \n\
+        addl    %ecx, 84(%esi)          # ctx->hash[2] += c         \n\
+        addl    %edx, 88(%esi)          # ctx->hash[3] += d         \n\
+        addl    %ebp, 92(%esi)          # ctx->hash[4] += e         \n\
+        popl    %ebx                    #                           \n\
+        popl    %esi                    #                           \n\
+        popl    %edi                    #                           \n\
+        popl    %ebp                    #                           \n\
+"
+        ); /* asm */
+#undef RCONST
+}
+# elif defined(__GNUC__) && defined(__x86_64__)
+/* in hash_md5_sha_x86-64.S */
+struct ASM_expects_80 { char t[1 - 2*(offsetof(sha1_ctx_t, hash) != 80)]; };
+void FAST_FUNC sha1_process_block64(sha1_ctx_t *ctx UNUSED_PARAM);
+# else
+/* Fast, fully-unrolled SHA1. +3800 bytes of code on x86.
+ * It seems further speedup can be achieved by handling more than
+ * 64 bytes per one function call (coreutils does that).
+ */
+static void FAST_FUNC sha1_process_block64(sha1_ctx_t *ctx)
+{
+        static const uint32_t rconsts[] ALIGN4 = {
+                0x5A827999, 0x6ED9EBA1, 0x8F1BBCDC, 0xCA62C1D6
+        };
+        uint32_t W[16];
+        uint32_t a, b, c, d, e;
+        a = ctx->hash[0];
+        b = ctx->hash[1];
+        c = ctx->hash[2];
+        d = ctx->hash[3];
+        e = ctx->hash[4];
+/* From kernel source comments:
+ * """
+ * If you have 32 registers or more, the compiler can (and should)
+ * try to change the array[] accesses into registers. However, on
+ * machines with less than ~25 registers, that won't really work,
+ * and at least gcc will make an unholy mess of it.
+ *
+ * So to avoid that mess which just slows things down, we force
+ * the stores to memory to actually happen (we might be better off
+ * with a 'W(t)=(val);asm("":"+m" (W(t))' there instead, as
+ * suggested by Artur Skawina - that will also make gcc unable to
+ * try to do the silly "optimize away loads" part because it won't
+ * see what the value will be).
+ * """
+ */
+#if defined(__GNUC__) && defined(__i386__)
+# define DO_NOT_TRY_PROPAGATING(m) asm("":"+m"(m))
+#else
+# define DO_NOT_TRY_PROPAGATING(m) ((void)0)
+#endif
+#undef OP
+#define OP(A,B,C,D,E, n) \
+        do { \
+                uint32_t work = EXPR(B, C, D); \
+                if (n <= 15) \
+                        work += W[n & 15] = SWAP_BE32(((uint32_t*)ctx->wbuffer)[n]); \
+                if (n >= 16) \
+                        work += W[n & 15] = rotl32(W[(n+13) & 15] ^ W[(n+8) & 15] ^ W[(n+2) & 15] ^ W[n & 15], 1); \
+                DO_NOT_TRY_PROPAGATING(W[n & 15]); \
+                E += work + rotl32(A, 5) + rconsts[n / 20]; \
+                B = rotl32(B, 30); \
+        } while (0)
+#define OP20(n) \
+        OP(a,b,c,d,e, (n+ 0)); OP(e,a,b,c,d, (n+ 1)); OP(d,e,a,b,c, (n+ 2)); OP(c,d,e,a,b, (n+ 3)); OP(b,c,d,e,a, (n+ 4)); \
+        OP(a,b,c,d,e, (n+ 5)); OP(e,a,b,c,d, (n+ 6)); OP(d,e,a,b,c, (n+ 7)); OP(c,d,e,a,b, (n+ 8)); OP(b,c,d,e,a, (n+ 9)); \
+        OP(a,b,c,d,e, (n+10)); OP(e,a,b,c,d, (n+11)); OP(d,e,a,b,c, (n+12)); OP(c,d,e,a,b, (n+13)); OP(b,c,d,e,a, (n+14)); \
+        OP(a,b,c,d,e, (n+15)); OP(e,a,b,c,d, (n+16)); OP(d,e,a,b,c, (n+17)); OP(c,d,e,a,b, (n+18)); OP(b,c,d,e,a, (n+19))
+        /* 4 rounds of 20 operations each */
+#define EXPR(b,c,d) (((c ^ d) & b) ^ d)
+        OP20(0);
+#undef EXPR
+#define EXPR(b,c,d) (c ^ d ^ b)
+        OP20(20);
+#undef EXPR
+#define EXPR(b,c,d) (((b | c) & d) | (b & c))
+        OP20(40);
+#undef EXPR
+#define EXPR(b,c,d) (c ^ d ^ b)
+        OP20(60);
+#undef EXPR
+#undef OP
+#undef OP20
+        ctx->hash[0] += a;
+        ctx->hash[1] += b;
+        ctx->hash[2] += c;
+        ctx->hash[3] += d;
+        ctx->hash[4] += e;
+}
+# endif
+#elif CONFIG_SHA1_SMALL == 1
+/* Middle-sized version, +300 bytes of code on x86. */
+static void FAST_FUNC sha1_process_block64(sha1_ctx_t *ctx)
+{
+        static const uint32_t rconsts[] ALIGN4 = {
+                0x5A827999, 0x6ED9EBA1, 0x8F1BBCDC, 0xCA62C1D6
+        };
+        int j;
+        int n;
+        uint32_t W[16+16];
+        uint32_t a, b, c, d, e;
+        a = ctx->hash[0];
+        b = ctx->hash[1];
+        c = ctx->hash[2];
+        d = ctx->hash[3];
+        e = ctx->hash[4];
+        /* 1st round of 20 operations */
+        n = 0;
+        do {
+                uint32_t work = ((c ^ d) & b) ^ d;
+                W[n] = W[n+16] = SWAP_BE32(((uint32_t*)ctx->wbuffer)[n]);
+                work += W[n];
+                work += e + rotl32(a, 5) + rconsts[0];
+                /* Rotate by one for next time */
+                e = d;
+                d = c;
+                c = rotl32(b, 30);
+                b = a;
+                a = work;
+                n = (n + 1) & 15;
+        } while (n != 0);
+        do {
+                uint32_t work = ((c ^ d) & b) ^ d;
+                W[n] = W[n+16] = rotl32(W[n+13] ^ W[n+8] ^ W[n+2] ^ W[n], 1);
+                work += W[n];
+                work += e + rotl32(a, 5) + rconsts[0];
+                e = d;
+                d = c;
+                c = rotl32(b, 30);
+                b = a;
+                a = work;
+                n = (n + 1) /* & 15*/;
+        } while (n != 4);
+        /* 2nd round of 20 operations */
+        j = 19;
+        do {
+                uint32_t work = c ^ d ^ b;
+                W[n] = W[n+16] = rotl32(W[n+13] ^ W[n+8] ^ W[n+2] ^ W[n], 1);
+                work += W[n];
+                work += e + rotl32(a, 5) + rconsts[1];
+                e = d;
+                d = c;
+                c = rotl32(b, 30);
+                b = a;
+                a = work;
+                n = (n + 1) & 15;
+        } while (--j >= 0);
+        /* 3rd round */
+        j = 19;
+        do {
+                uint32_t work = ((b | c) & d) | (b & c);
+                W[n] = W[n+16] = rotl32(W[n+13] ^ W[n+8] ^ W[n+2] ^ W[n], 1);
+                work += W[n];
+                work += e + rotl32(a, 5) + rconsts[2];
+                e = d;
+                d = c;
+                c = rotl32(b, 30);
+                b = a;
+                a = work;
+                n = (n + 1) & 15;
+        } while (--j >= 0);
+        /* 4th round */
+        j = 19;
+        do {
+                uint32_t work = c ^ d ^ b;
+                W[n] = W[n+16] = rotl32(W[n+13] ^ W[n+8] ^ W[n+2] ^ W[n], 1);
+                work += W[n];
+                work += e + rotl32(a, 5) + rconsts[3];
+                e = d;
+                d = c;
+                c = rotl32(b, 30);
+                b = a;
+                a = work;
+                n = (n + 1) & 15;
+        } while (--j >= 0);
+        ctx->hash[0] += a;
+        ctx->hash[1] += b;
+        ctx->hash[2] += c;
+        ctx->hash[3] += d;
+        ctx->hash[4] += e;
+}
+#else
+/* Compact version, almost twice as slow as fully unrolled */
 static void FAST_FUNC sha1_process_block64(sha1_ctx_t *ctx)
 {
        static const uint32_t rconsts[] ALIGN4 = {
                0x5A827999, 0x6ED9EBA1, 0x8F1BBCDC, 0xCA62C1D6
        };
        int i, j;
-        int cnt;
+        int n;
        uint32_t W[16+16];
        uint32_t a, b, c, d, e;
        /* On-stack work buffer frees up one register in the main loop
-         * which otherwise will be needed to hold ctx pointer */
+         * which otherwise will be needed to hold ctx pointer.
+         *
+         * The compiler is not smart enough to realize it, though. :(
+         * If __attribute__((optimize("2"))) is added to the function,
+         * only then gcc-9.3.1 spills "ctx" to stack and uses the freed
+         * register (making code 6 bytes smaller, not just faster).
+         */
        for (i = 0; i < 16; i++)
                W[i] = W[i+16] = SWAP_BE32(((uint32_t*)ctx->wbuffer)[i]);
@@ -512,7 +907,7 @@ static void FAST_FUNC sha1_process_block64(sha1_ctx_t *ctx)
        e = ctx->hash[4];
        /* 4 rounds of 20 operations each */
-        cnt = 0;
+        n = 0;
        for (i = 0; i < 4; i++) {
                j = 19;
                do {
@@ -523,27 +918,24 @@ static void FAST_FUNC sha1_process_block64(sha1_ctx_t *ctx)
                                work = (work & b) ^ d;
                                if (j <= 3)
                                        goto ge16;
-                                /* Used to do SWAP_BE32 here, but this
-                                 * requires ctx (see comment above) */
-                                work += W[cnt];
                        } else {
                                if (i == 2)
                                        work = ((b | c) & d) | (b & c);
                                else /* i = 1 or 3 */
                                        work ^= b;
 ge16:
-                                W[cnt] = W[cnt+16] = rotl32(W[cnt+13] ^ W[cnt+8] ^ W[cnt+2] ^ W[cnt], 1);
+                                W[n] = W[n+16] = rotl32(W[n+13] ^ W[n+8] ^ W[n+2] ^ W[n], 1);
-                                work += W[cnt];
                        }
+                        work += W[n];
                        work += e + rotl32(a, 5) + rconsts[i];
                        /* Rotate by one for next time */
                        e = d;
                        d = c;
-                        c = /* b = */ rotl32(b, 30);
+                        c = rotl32(b, 30);
                        b = a;
                        a = work;
-                        cnt = (cnt + 1) & 15;
+                        n = (n + 1) & 15;
                } while (--j >= 0);
        }
@@ -553,6 +945,7 @@ static void FAST_FUNC sha1_process_block64(sha1_ctx_t *ctx)
        ctx->hash[3] += d;
        ctx->hash[4] += e;
 }
+#endif
 /* Constants for SHA512 from FIPS 180-2:4.2.3.
 * SHA256 constants from FIPS 180-2:4.2.2
diff --git a/libbb/hash_md5_sha_x86-64.S b/libbb/hash_md5_sha_x86-64.S
new file mode 100644
index 000000000..ff78fc049
--- /dev/null
+++ b/libbb/hash_md5_sha_x86-64.S
@@ -0,0 +1,1289 @@
+### Generated by hash_md5_sha_x86-64.S.sh ###
+#if CONFIG_SHA1_SMALL == 0 && defined(__GNUC__) && defined(__x86_64__)
+        .section        .text.sha1_process_block64,"ax",@progbits
+        .globl  sha1_process_block64
+        .hidden sha1_process_block64
+        .type   sha1_process_block64, @function
+        .balign 8       # allow decoders to fetch at least 5 first insns
+sha1_process_block64:
+        pushq   %rbp    # 1 byte insn
+        pushq   %rbx    # 1 byte insn
+        pushq   %r15    # 2 byte insn
+        pushq   %r14    # 2 byte insn
+        pushq   %r13    # 2 byte insn
+        pushq   %r12    # 2 byte insn
+        pushq   %rdi    # we need ctx at the end
+#Register and stack use:
+# eax..edx: a..d
+# ebp: e
+# esi,edi: temps
+# -32+4*n(%rsp),r8...r15: W[0..7,8..15]
+# (TODO: actually W[0..7] are used a bit more often, put _them_ into r8..r15?)
+        movl    $3, %eax
+1:
+        movq    (%rdi,%rax,8), %rsi
+        bswapq  %rsi
+        rolq    $32, %rsi
+        movq    %rsi, -32(%rsp,%rax,8)
+        decl    %eax
+        jns     1b
+        movl    80(%rdi), %eax          # a = ctx->hash[0]
+        movl    84(%rdi), %ebx          # b = ctx->hash[1]
+        movl    88(%rdi), %ecx          # c = ctx->hash[2]
+        movl    92(%rdi), %edx          # d = ctx->hash[3]
+        movl    96(%rdi), %ebp          # e = ctx->hash[4]
+        movq    4*8(%rdi), %r8
+        movq    4*10(%rdi), %r10
+        bswapq  %r8
+        bswapq  %r10
+        movq    4*12(%rdi), %r12
+        movq    4*14(%rdi), %r14
+        bswapq  %r12
+        bswapq  %r14
+        movl    %r8d, %r9d
+        shrq    $32, %r8
+        movl    %r10d, %r11d
+        shrq    $32, %r10
+        movl    %r12d, %r13d
+        shrq    $32, %r12
+        movl    %r14d, %r15d
+        shrq    $32, %r14
+# 0
+        # W[0], already in %esi
+        movl    %ecx, %edi              # c
+        xorl    %edx, %edi              # ^d
+        andl    %ebx, %edi              # &b
+        xorl    %edx, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rbp,%rsi), %ebp # e += RCONST + W[n]
+        addl    %edi, %ebp              # e += (((c ^ d) & b) ^ d)
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 1
+        movl    -32+4*1(%rsp), %esi             # W[n]
+        movl    %ebx, %edi              # c
+        xorl    %ecx, %edi              # ^d
+        andl    %eax, %edi              # &b
+        xorl    %ecx, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rdx,%rsi), %edx # e += RCONST + W[n]
+        addl    %edi, %edx              # e += (((c ^ d) & b) ^ d)
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 2
+        movl    -32+4*2(%rsp), %esi             # W[n]
+        movl    %eax, %edi              # c
+        xorl    %ebx, %edi              # ^d
+        andl    %ebp, %edi              # &b
+        xorl    %ebx, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rcx,%rsi), %ecx # e += RCONST + W[n]
+        addl    %edi, %ecx              # e += (((c ^ d) & b) ^ d)
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 3
+        movl    -32+4*3(%rsp), %esi             # W[n]
+        movl    %ebp, %edi              # c
+        xorl    %eax, %edi              # ^d
+        andl    %edx, %edi              # &b
+        xorl    %eax, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rbx,%rsi), %ebx # e += RCONST + W[n]
+        addl    %edi, %ebx              # e += (((c ^ d) & b) ^ d)
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 4
+        movl    -32+4*4(%rsp), %esi             # W[n]
+        movl    %edx, %edi              # c
+        xorl    %ebp, %edi              # ^d
+        andl    %ecx, %edi              # &b
+        xorl    %ebp, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rax,%rsi), %eax # e += RCONST + W[n]
+        addl    %edi, %eax              # e += (((c ^ d) & b) ^ d)
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 5
+        movl    -32+4*5(%rsp), %esi             # W[n]
+        movl    %ecx, %edi              # c
+        xorl    %edx, %edi              # ^d
+        andl    %ebx, %edi              # &b
+        xorl    %edx, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rbp,%rsi), %ebp # e += RCONST + W[n]
+        addl    %edi, %ebp              # e += (((c ^ d) & b) ^ d)
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 6
+        movl    -32+4*6(%rsp), %esi             # W[n]
+        movl    %ebx, %edi              # c
+        xorl    %ecx, %edi              # ^d
+        andl    %eax, %edi              # &b
+        xorl    %ecx, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rdx,%rsi), %edx # e += RCONST + W[n]
+        addl    %edi, %edx              # e += (((c ^ d) & b) ^ d)
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 7
+        movl    -32+4*7(%rsp), %esi             # W[n]
+        movl    %eax, %edi              # c
+        xorl    %ebx, %edi              # ^d
+        andl    %ebp, %edi              # &b
+        xorl    %ebx, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rcx,%rsi), %ecx # e += RCONST + W[n]
+        addl    %edi, %ecx              # e += (((c ^ d) & b) ^ d)
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 8
+        # W[n], in %r8
+        movl    %ebp, %edi              # c
+        xorl    %eax, %edi              # ^d
+        andl    %edx, %edi              # &b
+        xorl    %eax, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rbx,%r8), %ebx # e += RCONST + W[n]
+        addl    %edi, %ebx              # e += (((c ^ d) & b) ^ d)
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 9
+        # W[n], in %r9
+        movl    %edx, %edi              # c
+        xorl    %ebp, %edi              # ^d
+        andl    %ecx, %edi              # &b
+        xorl    %ebp, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rax,%r9), %eax # e += RCONST + W[n]
+        addl    %edi, %eax              # e += (((c ^ d) & b) ^ d)
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 10
+        # W[n], in %r10
+        movl    %ecx, %edi              # c
+        xorl    %edx, %edi              # ^d
+        andl    %ebx, %edi              # &b
+        xorl    %edx, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rbp,%r10), %ebp # e += RCONST + W[n]
+        addl    %edi, %ebp              # e += (((c ^ d) & b) ^ d)
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 11
+        # W[n], in %r11
+        movl    %ebx, %edi              # c
+        xorl    %ecx, %edi              # ^d
+        andl    %eax, %edi              # &b
+        xorl    %ecx, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rdx,%r11), %edx # e += RCONST + W[n]
+        addl    %edi, %edx              # e += (((c ^ d) & b) ^ d)
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 12
+        # W[n], in %r12
+        movl    %eax, %edi              # c
+        xorl    %ebx, %edi              # ^d
+        andl    %ebp, %edi              # &b
+        xorl    %ebx, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rcx,%r12), %ecx # e += RCONST + W[n]
+        addl    %edi, %ecx              # e += (((c ^ d) & b) ^ d)
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 13
+        # W[n], in %r13
+        movl    %ebp, %edi              # c
+        xorl    %eax, %edi              # ^d
+        andl    %edx, %edi              # &b
+        xorl    %eax, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rbx,%r13), %ebx # e += RCONST + W[n]
+        addl    %edi, %ebx              # e += (((c ^ d) & b) ^ d)
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 14
+        # W[n], in %r14
+        movl    %edx, %edi              # c
+        xorl    %ebp, %edi              # ^d
+        andl    %ecx, %edi              # &b
+        xorl    %ebp, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rax,%r14), %eax # e += RCONST + W[n]
+        addl    %edi, %eax              # e += (((c ^ d) & b) ^ d)
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 15
+        # W[n], in %r15
+        movl    %ecx, %edi              # c
+        xorl    %edx, %edi              # ^d
+        andl    %ebx, %edi              # &b
+        xorl    %edx, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rbp,%r15), %ebp # e += RCONST + W[n]
+        addl    %edi, %ebp              # e += (((c ^ d) & b) ^ d)
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 16
+        movl    %r13d, %esi     # W[(n+13) & 15]
+        xorl    %r8d, %esi              # ^W[(n+8) & 15]
+        xorl    -32+4*2(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*0(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*0(%rsp)             # store to W[n & 15]
+        movl    %ebx, %edi              # c
+        xorl    %ecx, %edi              # ^d
+        andl    %eax, %edi              # &b
+        xorl    %ecx, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rdx,%rsi), %edx # e += RCONST + W[n & 15]
+        addl    %edi, %edx              # e += (((c ^ d) & b) ^ d)
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 17
+        movl    %r14d, %esi     # W[(n+13) & 15]
+        xorl    %r9d, %esi              # ^W[(n+8) & 15]
+        xorl    -32+4*3(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*1(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*1(%rsp)             # store to W[n & 15]
+        movl    %eax, %edi              # c
+        xorl    %ebx, %edi              # ^d
+        andl    %ebp, %edi              # &b
+        xorl    %ebx, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rcx,%rsi), %ecx # e += RCONST + W[n & 15]
+        addl    %edi, %ecx              # e += (((c ^ d) & b) ^ d)
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 18
+        movl    %r15d, %esi     # W[(n+13) & 15]
+        xorl    %r10d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*4(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*2(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*2(%rsp)             # store to W[n & 15]
+        movl    %ebp, %edi              # c
+        xorl    %eax, %edi              # ^d
+        andl    %edx, %edi              # &b
+        xorl    %eax, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rbx,%rsi), %ebx # e += RCONST + W[n & 15]
+        addl    %edi, %ebx              # e += (((c ^ d) & b) ^ d)
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 19
+        movl    -32+4*0(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r11d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*5(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*3(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*3(%rsp)             # store to W[n & 15]
+        movl    %edx, %edi              # c
+        xorl    %ebp, %edi              # ^d
+        andl    %ecx, %edi              # &b
+        xorl    %ebp, %edi              # (((c ^ d) & b) ^ d)
+        leal    0x5A827999(%rax,%rsi), %eax # e += RCONST + W[n & 15]
+        addl    %edi, %eax              # e += (((c ^ d) & b) ^ d)
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 20
+        movl    -32+4*1(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r12d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*6(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*4(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*4(%rsp)             # store to W[n & 15]
+        movl    %ecx, %edi              # c
+        xorl    %edx, %edi              # ^d
+        xorl    %ebx, %edi              # ^b
+        leal    0x6ED9EBA1(%rbp,%rsi), %ebp # e += RCONST + W[n & 15]
+        addl    %edi, %ebp              # e += (c ^ d ^ b)
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 21
+        movl    -32+4*2(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r13d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*7(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*5(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*5(%rsp)             # store to W[n & 15]
+        movl    %ebx, %edi              # c
+        xorl    %ecx, %edi              # ^d
+        xorl    %eax, %edi              # ^b
+        leal    0x6ED9EBA1(%rdx,%rsi), %edx # e += RCONST + W[n & 15]
+        addl    %edi, %edx              # e += (c ^ d ^ b)
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 22
+        movl    -32+4*3(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r14d, %esi             # ^W[(n+8) & 15]
+        xorl    %r8d, %esi              # ^W[(n+2) & 15]
+        xorl    -32+4*6(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*6(%rsp)             # store to W[n & 15]
+        movl    %eax, %edi              # c
+        xorl    %ebx, %edi              # ^d
+        xorl    %ebp, %edi              # ^b
+        leal    0x6ED9EBA1(%rcx,%rsi), %ecx # e += RCONST + W[n & 15]
+        addl    %edi, %ecx              # e += (c ^ d ^ b)
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 23
+        movl    -32+4*4(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r15d, %esi             # ^W[(n+8) & 15]
+        xorl    %r9d, %esi              # ^W[(n+2) & 15]
+        xorl    -32+4*7(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*7(%rsp)             # store to W[n & 15]
+        movl    %ebp, %edi              # c
+        xorl    %eax, %edi              # ^d
+        xorl    %edx, %edi              # ^b
+        leal    0x6ED9EBA1(%rbx,%rsi), %ebx # e += RCONST + W[n & 15]
+        addl    %edi, %ebx              # e += (c ^ d ^ b)
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 24
+        xorl    -32+4*5(%rsp), %r8d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*0(%rsp), %r8d     # ^W[(n+8) & 15]
+        xorl    %r10d, %r8d     # ^W[(n+2) & 15]
+        roll    %r8d            #
+        movl    %edx, %edi              # c
+        xorl    %ebp, %edi              # ^d
+        xorl    %ecx, %edi              # ^b
+        leal    0x6ED9EBA1(%rax,%r8), %eax # e += RCONST + W[n & 15]
+        addl    %edi, %eax              # e += (c ^ d ^ b)
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 25
+        xorl    -32+4*6(%rsp), %r9d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*1(%rsp), %r9d     # ^W[(n+8) & 15]
+        xorl    %r11d, %r9d     # ^W[(n+2) & 15]
+        roll    %r9d            #
+        movl    %ecx, %edi              # c
+        xorl    %edx, %edi              # ^d
+        xorl    %ebx, %edi              # ^b
+        leal    0x6ED9EBA1(%rbp,%r9), %ebp # e += RCONST + W[n & 15]
+        addl    %edi, %ebp              # e += (c ^ d ^ b)
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 26
+        xorl    -32+4*7(%rsp), %r10d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*2(%rsp), %r10d    # ^W[(n+8) & 15]
+        xorl    %r12d, %r10d    # ^W[(n+2) & 15]
+        roll    %r10d           #
+        movl    %ebx, %edi              # c
+        xorl    %ecx, %edi              # ^d
+        xorl    %eax, %edi              # ^b
+        leal    0x6ED9EBA1(%rdx,%r10), %edx # e += RCONST + W[n & 15]
+        addl    %edi, %edx              # e += (c ^ d ^ b)
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 27
+        xorl    %r8d, %r11d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*3(%rsp), %r11d    # ^W[(n+8) & 15]
+        xorl    %r13d, %r11d    # ^W[(n+2) & 15]
+        roll    %r11d           #
+        movl    %eax, %edi              # c
+        xorl    %ebx, %edi              # ^d
+        xorl    %ebp, %edi              # ^b
+        leal    0x6ED9EBA1(%rcx,%r11), %ecx # e += RCONST + W[n & 15]
+        addl    %edi, %ecx              # e += (c ^ d ^ b)
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 28
+        xorl    %r9d, %r12d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*4(%rsp), %r12d    # ^W[(n+8) & 15]
+        xorl    %r14d, %r12d    # ^W[(n+2) & 15]
+        roll    %r12d           #
+        movl    %ebp, %edi              # c
+        xorl    %eax, %edi              # ^d
+        xorl    %edx, %edi              # ^b
+        leal    0x6ED9EBA1(%rbx,%r12), %ebx # e += RCONST + W[n & 15]
+        addl    %edi, %ebx              # e += (c ^ d ^ b)
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 29
+        xorl    %r10d, %r13d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*5(%rsp), %r13d    # ^W[(n+8) & 15]
+        xorl    %r15d, %r13d    # ^W[(n+2) & 15]
+        roll    %r13d           #
+        movl    %edx, %edi              # c
+        xorl    %ebp, %edi              # ^d
+        xorl    %ecx, %edi              # ^b
+        leal    0x6ED9EBA1(%rax,%r13), %eax # e += RCONST + W[n & 15]
+        addl    %edi, %eax              # e += (c ^ d ^ b)
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 30
+        xorl    %r11d, %r14d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*6(%rsp), %r14d    # ^W[(n+8) & 15]
+        xorl    -32+4*0(%rsp), %r14d    # ^W[(n+2) & 15]
+        roll    %r14d           #
+        movl    %ecx, %edi              # c
+        xorl    %edx, %edi              # ^d
+        xorl    %ebx, %edi              # ^b
+        leal    0x6ED9EBA1(%rbp,%r14), %ebp # e += RCONST + W[n & 15]
+        addl    %edi, %ebp              # e += (c ^ d ^ b)
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 31
+        xorl    %r12d, %r15d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*7(%rsp), %r15d    # ^W[(n+8) & 15]
+        xorl    -32+4*1(%rsp), %r15d    # ^W[(n+2) & 15]
+        roll    %r15d           #
+        movl    %ebx, %edi              # c
+        xorl    %ecx, %edi              # ^d
+        xorl    %eax, %edi              # ^b
+        leal    0x6ED9EBA1(%rdx,%r15), %edx # e += RCONST + W[n & 15]
+        addl    %edi, %edx              # e += (c ^ d ^ b)
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 32
+        movl    %r13d, %esi     # W[(n+13) & 15]
+        xorl    %r8d, %esi              # ^W[(n+8) & 15]
+        xorl    -32+4*2(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*0(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*0(%rsp)             # store to W[n & 15]
+        movl    %eax, %edi              # c
+        xorl    %ebx, %edi              # ^d
+        xorl    %ebp, %edi              # ^b
+        leal    0x6ED9EBA1(%rcx,%rsi), %ecx # e += RCONST + W[n & 15]
+        addl    %edi, %ecx              # e += (c ^ d ^ b)
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 33
+        movl    %r14d, %esi     # W[(n+13) & 15]
+        xorl    %r9d, %esi              # ^W[(n+8) & 15]
+        xorl    -32+4*3(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*1(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*1(%rsp)             # store to W[n & 15]
+        movl    %ebp, %edi              # c
+        xorl    %eax, %edi              # ^d
+        xorl    %edx, %edi              # ^b
+        leal    0x6ED9EBA1(%rbx,%rsi), %ebx # e += RCONST + W[n & 15]
+        addl    %edi, %ebx              # e += (c ^ d ^ b)
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 34
+        movl    %r15d, %esi     # W[(n+13) & 15]
+        xorl    %r10d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*4(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*2(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*2(%rsp)             # store to W[n & 15]
+        movl    %edx, %edi              # c
+        xorl    %ebp, %edi              # ^d
+        xorl    %ecx, %edi              # ^b
+        leal    0x6ED9EBA1(%rax,%rsi), %eax # e += RCONST + W[n & 15]
+        addl    %edi, %eax              # e += (c ^ d ^ b)
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 35
+        movl    -32+4*0(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r11d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*5(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*3(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*3(%rsp)             # store to W[n & 15]
+        movl    %ecx, %edi              # c
+        xorl    %edx, %edi              # ^d
+        xorl    %ebx, %edi              # ^b
+        leal    0x6ED9EBA1(%rbp,%rsi), %ebp # e += RCONST + W[n & 15]
+        addl    %edi, %ebp              # e += (c ^ d ^ b)
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 36
+        movl    -32+4*1(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r12d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*6(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*4(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*4(%rsp)             # store to W[n & 15]
+        movl    %ebx, %edi              # c
+        xorl    %ecx, %edi              # ^d
+        xorl    %eax, %edi              # ^b
+        leal    0x6ED9EBA1(%rdx,%rsi), %edx # e += RCONST + W[n & 15]
+        addl    %edi, %edx              # e += (c ^ d ^ b)
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 37
+        movl    -32+4*2(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r13d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*7(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*5(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*5(%rsp)             # store to W[n & 15]
+        movl    %eax, %edi              # c
+        xorl    %ebx, %edi              # ^d
+        xorl    %ebp, %edi              # ^b
+        leal    0x6ED9EBA1(%rcx,%rsi), %ecx # e += RCONST + W[n & 15]
+        addl    %edi, %ecx              # e += (c ^ d ^ b)
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 38
+        movl    -32+4*3(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r14d, %esi             # ^W[(n+8) & 15]
+        xorl    %r8d, %esi              # ^W[(n+2) & 15]
+        xorl    -32+4*6(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*6(%rsp)             # store to W[n & 15]
+        movl    %ebp, %edi              # c
+        xorl    %eax, %edi              # ^d
+        xorl    %edx, %edi              # ^b
+        leal    0x6ED9EBA1(%rbx,%rsi), %ebx # e += RCONST + W[n & 15]
+        addl    %edi, %ebx              # e += (c ^ d ^ b)
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 39
+        movl    -32+4*4(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r15d, %esi             # ^W[(n+8) & 15]
+        xorl    %r9d, %esi              # ^W[(n+2) & 15]
+        xorl    -32+4*7(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*7(%rsp)             # store to W[n & 15]
+        movl    %edx, %edi              # c
+        xorl    %ebp, %edi              # ^d
+        xorl    %ecx, %edi              # ^b
+        leal    0x6ED9EBA1(%rax,%rsi), %eax # e += RCONST + W[n & 15]
+        addl    %edi, %eax              # e += (c ^ d ^ b)
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 40
+        movl    %ebx, %edi              # di: b
+        movl    %ebx, %esi              # si: b
+        orl     %ecx, %edi              # di: b | c
+        andl    %ecx, %esi              # si: b & c
+        andl    %edx, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        xorl    -32+4*5(%rsp), %r8d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*0(%rsp), %r8d     # ^W[(n+8) & 15]
+        xorl    %r10d, %r8d     # ^W[(n+2) & 15]
+        roll    %r8d            #
+        addl    %edi, %ebp              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rbp,%r8), %ebp # e += RCONST + W[n & 15]
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 41
+        movl    %eax, %edi              # di: b
+        movl    %eax, %esi              # si: b
+        orl     %ebx, %edi              # di: b | c
+        andl    %ebx, %esi              # si: b & c
+        andl    %ecx, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        xorl    -32+4*6(%rsp), %r9d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*1(%rsp), %r9d     # ^W[(n+8) & 15]
+        xorl    %r11d, %r9d     # ^W[(n+2) & 15]
+        roll    %r9d            #
+        addl    %edi, %edx              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rdx,%r9), %edx # e += RCONST + W[n & 15]
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 42
+        movl    %ebp, %edi              # di: b
+        movl    %ebp, %esi              # si: b
+        orl     %eax, %edi              # di: b | c
+        andl    %eax, %esi              # si: b & c
+        andl    %ebx, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        xorl    -32+4*7(%rsp), %r10d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*2(%rsp), %r10d    # ^W[(n+8) & 15]
+        xorl    %r12d, %r10d    # ^W[(n+2) & 15]
+        roll    %r10d           #
+        addl    %edi, %ecx              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rcx,%r10), %ecx # e += RCONST + W[n & 15]
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 43
+        movl    %edx, %edi              # di: b
+        movl    %edx, %esi              # si: b
+        orl     %ebp, %edi              # di: b | c
+        andl    %ebp, %esi              # si: b & c
+        andl    %eax, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        xorl    %r8d, %r11d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*3(%rsp), %r11d    # ^W[(n+8) & 15]
+        xorl    %r13d, %r11d    # ^W[(n+2) & 15]
+        roll    %r11d           #
+        addl    %edi, %ebx              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rbx,%r11), %ebx # e += RCONST + W[n & 15]
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 44
+        movl    %ecx, %edi              # di: b
+        movl    %ecx, %esi              # si: b
+        orl     %edx, %edi              # di: b | c
+        andl    %edx, %esi              # si: b & c
+        andl    %ebp, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        xorl    %r9d, %r12d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*4(%rsp), %r12d    # ^W[(n+8) & 15]
+        xorl    %r14d, %r12d    # ^W[(n+2) & 15]
+        roll    %r12d           #
+        addl    %edi, %eax              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rax,%r12), %eax # e += RCONST + W[n & 15]
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 45
+        movl    %ebx, %edi              # di: b
+        movl    %ebx, %esi              # si: b
+        orl     %ecx, %edi              # di: b | c
+        andl    %ecx, %esi              # si: b & c
+        andl    %edx, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        xorl    %r10d, %r13d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*5(%rsp), %r13d    # ^W[(n+8) & 15]
+        xorl    %r15d, %r13d    # ^W[(n+2) & 15]
+        roll    %r13d           #
+        addl    %edi, %ebp              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rbp,%r13), %ebp # e += RCONST + W[n & 15]
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 46
+        movl    %eax, %edi              # di: b
+        movl    %eax, %esi              # si: b
+        orl     %ebx, %edi              # di: b | c
+        andl    %ebx, %esi              # si: b & c
+        andl    %ecx, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        xorl    %r11d, %r14d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*6(%rsp), %r14d    # ^W[(n+8) & 15]
+        xorl    -32+4*0(%rsp), %r14d    # ^W[(n+2) & 15]
+        roll    %r14d           #
+        addl    %edi, %edx              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rdx,%r14), %edx # e += RCONST + W[n & 15]
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 47
+        movl    %ebp, %edi              # di: b
+        movl    %ebp, %esi              # si: b
+        orl     %eax, %edi              # di: b | c
+        andl    %eax, %esi              # si: b & c
+        andl    %ebx, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        xorl    %r12d, %r15d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*7(%rsp), %r15d    # ^W[(n+8) & 15]
+        xorl    -32+4*1(%rsp), %r15d    # ^W[(n+2) & 15]
+        roll    %r15d           #
+        addl    %edi, %ecx              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rcx,%r15), %ecx # e += RCONST + W[n & 15]
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 48
+        movl    %edx, %edi              # di: b
+        movl    %edx, %esi              # si: b
+        orl     %ebp, %edi              # di: b | c
+        andl    %ebp, %esi              # si: b & c
+        andl    %eax, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        movl    %r13d, %esi     # W[(n+13) & 15]
+        xorl    %r8d, %esi              # ^W[(n+8) & 15]
+        xorl    -32+4*2(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*0(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*0(%rsp)             # store to W[n & 15]
+        addl    %edi, %ebx              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rbx,%rsi), %ebx # e += RCONST + W[n & 15]
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 49
+        movl    %ecx, %edi              # di: b
+        movl    %ecx, %esi              # si: b
+        orl     %edx, %edi              # di: b | c
+        andl    %edx, %esi              # si: b & c
+        andl    %ebp, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        movl    %r14d, %esi     # W[(n+13) & 15]
+        xorl    %r9d, %esi              # ^W[(n+8) & 15]
+        xorl    -32+4*3(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*1(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*1(%rsp)             # store to W[n & 15]
+        addl    %edi, %eax              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rax,%rsi), %eax # e += RCONST + W[n & 15]
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 50
+        movl    %ebx, %edi              # di: b
+        movl    %ebx, %esi              # si: b
+        orl     %ecx, %edi              # di: b | c
+        andl    %ecx, %esi              # si: b & c
+        andl    %edx, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        movl    %r15d, %esi     # W[(n+13) & 15]
+        xorl    %r10d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*4(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*2(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*2(%rsp)             # store to W[n & 15]
+        addl    %edi, %ebp              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rbp,%rsi), %ebp # e += RCONST + W[n & 15]
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 51
+        movl    %eax, %edi              # di: b
+        movl    %eax, %esi              # si: b
+        orl     %ebx, %edi              # di: b | c
+        andl    %ebx, %esi              # si: b & c
+        andl    %ecx, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        movl    -32+4*0(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r11d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*5(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*3(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*3(%rsp)             # store to W[n & 15]
+        addl    %edi, %edx              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rdx,%rsi), %edx # e += RCONST + W[n & 15]
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 52
+        movl    %ebp, %edi              # di: b
+        movl    %ebp, %esi              # si: b
+        orl     %eax, %edi              # di: b | c
+        andl    %eax, %esi              # si: b & c
+        andl    %ebx, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        movl    -32+4*1(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r12d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*6(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*4(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*4(%rsp)             # store to W[n & 15]
+        addl    %edi, %ecx              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rcx,%rsi), %ecx # e += RCONST + W[n & 15]
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 53
+        movl    %edx, %edi              # di: b
+        movl    %edx, %esi              # si: b
+        orl     %ebp, %edi              # di: b | c
+        andl    %ebp, %esi              # si: b & c
+        andl    %eax, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        movl    -32+4*2(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r13d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*7(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*5(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*5(%rsp)             # store to W[n & 15]
+        addl    %edi, %ebx              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rbx,%rsi), %ebx # e += RCONST + W[n & 15]
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 54
+        movl    %ecx, %edi              # di: b
+        movl    %ecx, %esi              # si: b
+        orl     %edx, %edi              # di: b | c
+        andl    %edx, %esi              # si: b & c
+        andl    %ebp, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        movl    -32+4*3(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r14d, %esi             # ^W[(n+8) & 15]
+        xorl    %r8d, %esi              # ^W[(n+2) & 15]
+        xorl    -32+4*6(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*6(%rsp)             # store to W[n & 15]
+        addl    %edi, %eax              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rax,%rsi), %eax # e += RCONST + W[n & 15]
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 55
+        movl    %ebx, %edi              # di: b
+        movl    %ebx, %esi              # si: b
+        orl     %ecx, %edi              # di: b | c
+        andl    %ecx, %esi              # si: b & c
+        andl    %edx, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        movl    -32+4*4(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r15d, %esi             # ^W[(n+8) & 15]
+        xorl    %r9d, %esi              # ^W[(n+2) & 15]
+        xorl    -32+4*7(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*7(%rsp)             # store to W[n & 15]
+        addl    %edi, %ebp              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rbp,%rsi), %ebp # e += RCONST + W[n & 15]
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 56
+        movl    %eax, %edi              # di: b
+        movl    %eax, %esi              # si: b
+        orl     %ebx, %edi              # di: b | c
+        andl    %ebx, %esi              # si: b & c
+        andl    %ecx, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        xorl    -32+4*5(%rsp), %r8d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*0(%rsp), %r8d     # ^W[(n+8) & 15]
+        xorl    %r10d, %r8d     # ^W[(n+2) & 15]
+        roll    %r8d            #
+        addl    %edi, %edx              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rdx,%r8), %edx # e += RCONST + W[n & 15]
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 57
+        movl    %ebp, %edi              # di: b
+        movl    %ebp, %esi              # si: b
+        orl     %eax, %edi              # di: b | c
+        andl    %eax, %esi              # si: b & c
+        andl    %ebx, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        xorl    -32+4*6(%rsp), %r9d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*1(%rsp), %r9d     # ^W[(n+8) & 15]
+        xorl    %r11d, %r9d     # ^W[(n+2) & 15]
+        roll    %r9d            #
+        addl    %edi, %ecx              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rcx,%r9), %ecx # e += RCONST + W[n & 15]
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 58
+        movl    %edx, %edi              # di: b
+        movl    %edx, %esi              # si: b
+        orl     %ebp, %edi              # di: b | c
+        andl    %ebp, %esi              # si: b & c
+        andl    %eax, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        xorl    -32+4*7(%rsp), %r10d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*2(%rsp), %r10d    # ^W[(n+8) & 15]
+        xorl    %r12d, %r10d    # ^W[(n+2) & 15]
+        roll    %r10d           #
+        addl    %edi, %ebx              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rbx,%r10), %ebx # e += RCONST + W[n & 15]
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 59
+        movl    %ecx, %edi              # di: b
+        movl    %ecx, %esi              # si: b
+        orl     %edx, %edi              # di: b | c
+        andl    %edx, %esi              # si: b & c
+        andl    %ebp, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+        xorl    %r8d, %r11d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*3(%rsp), %r11d    # ^W[(n+8) & 15]
+        xorl    %r13d, %r11d    # ^W[(n+2) & 15]
+        roll    %r11d           #
+        addl    %edi, %eax              # += ((b | c) & d) | (b & c)
+        leal    -0x70E44324(%rax,%r11), %eax # e += RCONST + W[n & 15]
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 60
+        xorl    %r9d, %r12d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*4(%rsp), %r12d    # ^W[(n+8) & 15]
+        xorl    %r14d, %r12d    # ^W[(n+2) & 15]
+        roll    %r12d           #
+        movl    %ecx, %edi              # c
+        xorl    %edx, %edi              # ^d
+        xorl    %ebx, %edi              # ^b
+        leal    -0x359D3E2A(%rbp,%r12), %ebp # e += RCONST + W[n & 15]
+        addl    %edi, %ebp              # e += (c ^ d ^ b)
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 61
+        xorl    %r10d, %r13d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*5(%rsp), %r13d    # ^W[(n+8) & 15]
+        xorl    %r15d, %r13d    # ^W[(n+2) & 15]
+        roll    %r13d           #
+        movl    %ebx, %edi              # c
+        xorl    %ecx, %edi              # ^d
+        xorl    %eax, %edi              # ^b
+        leal    -0x359D3E2A(%rdx,%r13), %edx # e += RCONST + W[n & 15]
+        addl    %edi, %edx              # e += (c ^ d ^ b)
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 62
+        xorl    %r11d, %r14d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*6(%rsp), %r14d    # ^W[(n+8) & 15]
+        xorl    -32+4*0(%rsp), %r14d    # ^W[(n+2) & 15]
+        roll    %r14d           #
+        movl    %eax, %edi              # c
+        xorl    %ebx, %edi              # ^d
+        xorl    %ebp, %edi              # ^b
+        leal    -0x359D3E2A(%rcx,%r14), %ecx # e += RCONST + W[n & 15]
+        addl    %edi, %ecx              # e += (c ^ d ^ b)
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 63
+        xorl    %r12d, %r15d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*7(%rsp), %r15d    # ^W[(n+8) & 15]
+        xorl    -32+4*1(%rsp), %r15d    # ^W[(n+2) & 15]
+        roll    %r15d           #
+        movl    %ebp, %edi              # c
+        xorl    %eax, %edi              # ^d
+        xorl    %edx, %edi              # ^b
+        leal    -0x359D3E2A(%rbx,%r15), %ebx # e += RCONST + W[n & 15]
+        addl    %edi, %ebx              # e += (c ^ d ^ b)
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 64
+        movl    %r13d, %esi     # W[(n+13) & 15]
+        xorl    %r8d, %esi              # ^W[(n+8) & 15]
+        xorl    -32+4*2(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*0(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*0(%rsp)             # store to W[n & 15]
+        movl    %edx, %edi              # c
+        xorl    %ebp, %edi              # ^d
+        xorl    %ecx, %edi              # ^b
+        leal    -0x359D3E2A(%rax,%rsi), %eax # e += RCONST + W[n & 15]
+        addl    %edi, %eax              # e += (c ^ d ^ b)
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 65
+        movl    %r14d, %esi     # W[(n+13) & 15]
+        xorl    %r9d, %esi              # ^W[(n+8) & 15]
+        xorl    -32+4*3(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*1(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*1(%rsp)             # store to W[n & 15]
+        movl    %ecx, %edi              # c
+        xorl    %edx, %edi              # ^d
+        xorl    %ebx, %edi              # ^b
+        leal    -0x359D3E2A(%rbp,%rsi), %ebp # e += RCONST + W[n & 15]
+        addl    %edi, %ebp              # e += (c ^ d ^ b)
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 66
+        movl    %r15d, %esi     # W[(n+13) & 15]
+        xorl    %r10d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*4(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*2(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*2(%rsp)             # store to W[n & 15]
+        movl    %ebx, %edi              # c
+        xorl    %ecx, %edi              # ^d
+        xorl    %eax, %edi              # ^b
+        leal    -0x359D3E2A(%rdx,%rsi), %edx # e += RCONST + W[n & 15]
+        addl    %edi, %edx              # e += (c ^ d ^ b)
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 67
+        movl    -32+4*0(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r11d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*5(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*3(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*3(%rsp)             # store to W[n & 15]
+        movl    %eax, %edi              # c
+        xorl    %ebx, %edi              # ^d
+        xorl    %ebp, %edi              # ^b
+        leal    -0x359D3E2A(%rcx,%rsi), %ecx # e += RCONST + W[n & 15]
+        addl    %edi, %ecx              # e += (c ^ d ^ b)
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 68
+        movl    -32+4*1(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r12d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*6(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*4(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*4(%rsp)             # store to W[n & 15]
+        movl    %ebp, %edi              # c
+        xorl    %eax, %edi              # ^d
+        xorl    %edx, %edi              # ^b
+        leal    -0x359D3E2A(%rbx,%rsi), %ebx # e += RCONST + W[n & 15]
+        addl    %edi, %ebx              # e += (c ^ d ^ b)
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 69
+        movl    -32+4*2(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r13d, %esi             # ^W[(n+8) & 15]
+        xorl    -32+4*7(%rsp), %esi             # ^W[(n+2) & 15]
+        xorl    -32+4*5(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*5(%rsp)             # store to W[n & 15]
+        movl    %edx, %edi              # c
+        xorl    %ebp, %edi              # ^d
+        xorl    %ecx, %edi              # ^b
+        leal    -0x359D3E2A(%rax,%rsi), %eax # e += RCONST + W[n & 15]
+        addl    %edi, %eax              # e += (c ^ d ^ b)
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 70
+        movl    -32+4*3(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r14d, %esi             # ^W[(n+8) & 15]
+        xorl    %r8d, %esi              # ^W[(n+2) & 15]
+        xorl    -32+4*6(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*6(%rsp)             # store to W[n & 15]
+        movl    %ecx, %edi              # c
+        xorl    %edx, %edi              # ^d
+        xorl    %ebx, %edi              # ^b
+        leal    -0x359D3E2A(%rbp,%rsi), %ebp # e += RCONST + W[n & 15]
+        addl    %edi, %ebp              # e += (c ^ d ^ b)
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 71
+        movl    -32+4*4(%rsp), %esi     # W[(n+13) & 15]
+        xorl    %r15d, %esi             # ^W[(n+8) & 15]
+        xorl    %r9d, %esi              # ^W[(n+2) & 15]
+        xorl    -32+4*7(%rsp), %esi             # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, -32+4*7(%rsp)             # store to W[n & 15]
+        movl    %ebx, %edi              # c
+        xorl    %ecx, %edi              # ^d
+        xorl    %eax, %edi              # ^b
+        leal    -0x359D3E2A(%rdx,%rsi), %edx # e += RCONST + W[n & 15]
+        addl    %edi, %edx              # e += (c ^ d ^ b)
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 72
+        xorl    -32+4*5(%rsp), %r8d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*0(%rsp), %r8d     # ^W[(n+8) & 15]
+        xorl    %r10d, %r8d     # ^W[(n+2) & 15]
+        roll    %r8d            #
+        movl    %eax, %edi              # c
+        xorl    %ebx, %edi              # ^d
+        xorl    %ebp, %edi              # ^b
+        leal    -0x359D3E2A(%rcx,%r8), %ecx # e += RCONST + W[n & 15]
+        addl    %edi, %ecx              # e += (c ^ d ^ b)
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 73
+        xorl    -32+4*6(%rsp), %r9d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*1(%rsp), %r9d     # ^W[(n+8) & 15]
+        xorl    %r11d, %r9d     # ^W[(n+2) & 15]
+        roll    %r9d            #
+        movl    %ebp, %edi              # c
+        xorl    %eax, %edi              # ^d
+        xorl    %edx, %edi              # ^b
+        leal    -0x359D3E2A(%rbx,%r9), %ebx # e += RCONST + W[n & 15]
+        addl    %edi, %ebx              # e += (c ^ d ^ b)
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 74
+        xorl    -32+4*7(%rsp), %r10d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*2(%rsp), %r10d    # ^W[(n+8) & 15]
+        xorl    %r12d, %r10d    # ^W[(n+2) & 15]
+        roll    %r10d           #
+        movl    %edx, %edi              # c
+        xorl    %ebp, %edi              # ^d
+        xorl    %ecx, %edi              # ^b
+        leal    -0x359D3E2A(%rax,%r10), %eax # e += RCONST + W[n & 15]
+        addl    %edi, %eax              # e += (c ^ d ^ b)
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+# 75
+        xorl    %r8d, %r11d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*3(%rsp), %r11d    # ^W[(n+8) & 15]
+        xorl    %r13d, %r11d    # ^W[(n+2) & 15]
+        roll    %r11d           #
+        movl    %ecx, %edi              # c
+        xorl    %edx, %edi              # ^d
+        xorl    %ebx, %edi              # ^b
+        leal    -0x359D3E2A(%rbp,%r11), %ebp # e += RCONST + W[n & 15]
+        addl    %edi, %ebp              # e += (c ^ d ^ b)
+        movl    %eax, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebp              # e += rotl32(a,5)
+        rorl    $2, %ebx                # b = rotl32(b,30)
+# 76
+        xorl    %r9d, %r12d     # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*4(%rsp), %r12d    # ^W[(n+8) & 15]
+        xorl    %r14d, %r12d    # ^W[(n+2) & 15]
+        roll    %r12d           #
+        movl    %ebx, %edi              # c
+        xorl    %ecx, %edi              # ^d
+        xorl    %eax, %edi              # ^b
+        leal    -0x359D3E2A(%rdx,%r12), %edx # e += RCONST + W[n & 15]
+        addl    %edi, %edx              # e += (c ^ d ^ b)
+        movl    %ebp, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %edx              # e += rotl32(a,5)
+        rorl    $2, %eax                # b = rotl32(b,30)
+# 77
+        xorl    %r10d, %r13d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*5(%rsp), %r13d    # ^W[(n+8) & 15]
+        xorl    %r15d, %r13d    # ^W[(n+2) & 15]
+        roll    %r13d           #
+        movl    %eax, %edi              # c
+        xorl    %ebx, %edi              # ^d
+        xorl    %ebp, %edi              # ^b
+        leal    -0x359D3E2A(%rcx,%r13), %ecx # e += RCONST + W[n & 15]
+        addl    %edi, %ecx              # e += (c ^ d ^ b)
+        movl    %edx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ecx              # e += rotl32(a,5)
+        rorl    $2, %ebp                # b = rotl32(b,30)
+# 78
+        xorl    %r11d, %r14d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*6(%rsp), %r14d    # ^W[(n+8) & 15]
+        xorl    -32+4*0(%rsp), %r14d    # ^W[(n+2) & 15]
+        roll    %r14d           #
+        movl    %ebp, %edi              # c
+        xorl    %eax, %edi              # ^d
+        xorl    %edx, %edi              # ^b
+        leal    -0x359D3E2A(%rbx,%r14), %ebx # e += RCONST + W[n & 15]
+        addl    %edi, %ebx              # e += (c ^ d ^ b)
+        movl    %ecx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %ebx              # e += rotl32(a,5)
+        rorl    $2, %edx                # b = rotl32(b,30)
+# 79
+        xorl    %r12d, %r15d    # W[n & 15] ^= W[(n+13) & 15]
+        xorl    -32+4*7(%rsp), %r15d    # ^W[(n+8) & 15]
+        xorl    -32+4*1(%rsp), %r15d    # ^W[(n+2) & 15]
+        roll    %r15d           #
+        movl    %edx, %edi              # c
+        xorl    %ebp, %edi              # ^d
+        xorl    %ecx, %edi              # ^b
+        leal    -0x359D3E2A(%rax,%r15), %eax # e += RCONST + W[n & 15]
+        addl    %edi, %eax              # e += (c ^ d ^ b)
+        movl    %ebx, %esi              #
+        roll    $5, %esi                # rotl32(a,5)
+        addl    %esi, %eax              # e += rotl32(a,5)
+        rorl    $2, %ecx                # b = rotl32(b,30)
+        popq    %rdi            #
+        popq    %r12            #
+        addl    %eax, 80(%rdi)  # ctx->hash[0] += a
+        popq    %r13            #
+        addl    %ebx, 84(%rdi)  # ctx->hash[1] += b
+        popq    %r14            #
+        addl    %ecx, 88(%rdi)  # ctx->hash[2] += c
+        popq    %r15            #
+        addl    %edx, 92(%rdi)  # ctx->hash[3] += d
+        popq    %rbx            #
+        addl    %ebp, 96(%rdi)  # ctx->hash[4] += e
+        popq    %rbp            #
+        ret
+        .size   sha1_process_block64, .-sha1_process_block64
+#endif
diff --git a/libbb/hash_md5_sha_x86-64.S.sh b/libbb/hash_md5_sha_x86-64.S.sh
new file mode 100755
index 000000000..7e50b64fb
--- /dev/null
+++ b/libbb/hash_md5_sha_x86-64.S.sh
@@ -0,0 +1,281 @@
+#!/bin/sh
+# We don't regenerate it on every "make" invocation - only by hand.
+# The reason is that the changes to generated code are difficult
+# to visualize by looking only at this script, it helps when the commit
+# also contains the diff of the generated file.
+exec >hash_md5_sha_x86-64.S
+echo \
+'### Generated by hash_md5_sha_x86-64.S.sh ###
+#if CONFIG_SHA1_SMALL == 0 && defined(__GNUC__) && defined(__x86_64__)
+        .section        .text.sha1_process_block64,"ax",@progbits
+        .globl  sha1_process_block64
+        .hidden sha1_process_block64
+        .type   sha1_process_block64, @function
+        .balign 8       # allow decoders to fetch at least 5 first insns
+sha1_process_block64:
+        pushq   %rbp    # 1 byte insn
+        pushq   %rbx    # 1 byte insn
+        pushq   %r15    # 2 byte insn
+        pushq   %r14    # 2 byte insn
+        pushq   %r13    # 2 byte insn
+        pushq   %r12    # 2 byte insn
+        pushq   %rdi    # we need ctx at the end
+#Register and stack use:
+# eax..edx: a..d
+# ebp: e
+# esi,edi: temps
+# -32+4*n(%rsp),r8...r15: W[0..7,8..15]
+# (TODO: actually W[0..7] are used a bit more often, put _them_ into r8..r15?)
+        movl    $3, %eax
+1:
+        movq    (%rdi,%rax,8), %rsi
+        bswapq  %rsi
+        rolq    $32, %rsi
+        movq    %rsi, -32(%rsp,%rax,8)
+        decl    %eax
+        jns     1b
+        movl    80(%rdi), %eax          # a = ctx->hash[0]
+        movl    84(%rdi), %ebx          # b = ctx->hash[1]
+        movl    88(%rdi), %ecx          # c = ctx->hash[2]
+        movl    92(%rdi), %edx          # d = ctx->hash[3]
+        movl    96(%rdi), %ebp          # e = ctx->hash[4]
+        movq    4*8(%rdi), %r8
+        movq    4*10(%rdi), %r10
+        bswapq  %r8
+        bswapq  %r10
+        movq    4*12(%rdi), %r12
+        movq    4*14(%rdi), %r14
+        bswapq  %r12
+        bswapq  %r14
+        movl    %r8d, %r9d
+        shrq    $32, %r8
+        movl    %r10d, %r11d
+        shrq    $32, %r10
+        movl    %r12d, %r13d
+        shrq    $32, %r12
+        movl    %r14d, %r15d
+        shrq    $32, %r14
+'
+W32() {
+test "$1" || exit 1
+test "$1" -lt 0 && exit 1
+test "$1" -gt 15 && exit 1
+test "$1" -lt 8 && echo "-32+4*$1(%rsp)"
+test "$1" -ge 8 && echo "%r${1}d"
+}
+# It's possible to interleave insns in rounds to mostly eliminate
+# dependency chains, but this likely to only help old Pentium-based
+# CPUs (ones without OOO, which can only simultaneously execute a pair
+# of _adjacent_ insns).
+# Testing on old-ish Silvermont CPU (which has OOO window of only
+# about ~8 insns) shows very small (~1%) speedup.
+RD1A() {
+local a=$1;local b=$2;local c=$3;local d=$4;local e=$5
+local n=$(($6))
+local n0=$(((n+0) & 15))
+echo "
+# $n
+";test $n0 = 0 && echo "
+        # W[0], already in %esi
+";test $n0 != 0 && test $n0 -lt 8 && echo "
+        movl    `W32 $n0`, %esi         # W[n]
+";test $n0 -ge 8 && echo "
+        # W[n], in %r$n0
+";echo "
+        movl    %e$c, %edi              # c
+        xorl    %e$d, %edi              # ^d
+        andl    %e$b, %edi              # &b
+        xorl    %e$d, %edi              # (((c ^ d) & b) ^ d)
+";test $n0 -lt 8 && echo "
+        leal    $RCONST(%r$e,%rsi), %e$e # e += RCONST + W[n]
+";test $n0 -ge 8 && echo "
+        leal    $RCONST(%r$e,%r$n0), %e$e # e += RCONST + W[n]
+";echo "
+        addl    %edi, %e$e              # e += (((c ^ d) & b) ^ d)
+        movl    %e$a, %esi              #
+        roll    \$5, %esi               # rotl32(a,5)
+        addl    %esi, %e$e              # e += rotl32(a,5)
+        rorl    \$2, %e$b               # b = rotl32(b,30)
+"
+}
+RD1B() {
+local a=$1;local b=$2;local c=$3;local d=$4;local e=$5
+local n=$(($6))
+local n13=$(((n+13) & 15))
+local n8=$(((n+8) & 15))
+local n2=$(((n+2) & 15))
+local n0=$(((n+0) & 15))
+echo "
+# $n
+";test $n0 -lt 8 && echo "
+        movl    `W32 $n13`, %esi        # W[(n+13) & 15]
+        xorl    `W32 $n8`, %esi         # ^W[(n+8) & 15]
+        xorl    `W32 $n2`, %esi         # ^W[(n+2) & 15]
+        xorl    `W32 $n0`, %esi         # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, `W32 $n0`         # store to W[n & 15]
+";test $n0 -ge 8 && echo "
+        xorl    `W32 $n13`, `W32 $n0`   # W[n & 15] ^= W[(n+13) & 15]
+        xorl    `W32 $n8`, `W32 $n0`    # ^W[(n+8) & 15]
+        xorl    `W32 $n2`, `W32 $n0`    # ^W[(n+2) & 15]
+        roll    `W32 $n0`               #
+";echo "
+        movl    %e$c, %edi              # c
+        xorl    %e$d, %edi              # ^d
+        andl    %e$b, %edi              # &b
+        xorl    %e$d, %edi              # (((c ^ d) & b) ^ d)
+";test $n0 -lt 8 && echo "
+        leal    $RCONST(%r$e,%rsi), %e$e # e += RCONST + W[n & 15]
+";test $n0 -ge 8 && echo "
+        leal    $RCONST(%r$e,%r$n0), %e$e # e += RCONST + W[n & 15]
+";echo "
+        addl    %edi, %e$e              # e += (((c ^ d) & b) ^ d)
+        movl    %e$a, %esi              #
+        roll    \$5, %esi               # rotl32(a,5)
+        addl    %esi, %e$e              # e += rotl32(a,5)
+        rorl    \$2, %e$b               # b = rotl32(b,30)
+"
+}
+{
+RCONST=0x5A827999
+RD1A ax bx cx dx bp  0; RD1A bp ax bx cx dx  1; RD1A dx bp ax bx cx  2; RD1A cx dx bp ax bx  3; RD1A bx cx dx bp ax  4
+RD1A ax bx cx dx bp  5; RD1A bp ax bx cx dx  6; RD1A dx bp ax bx cx  7; RD1A cx dx bp ax bx  8; RD1A bx cx dx bp ax  9
+RD1A ax bx cx dx bp 10; RD1A bp ax bx cx dx 11; RD1A dx bp ax bx cx 12; RD1A cx dx bp ax bx 13; RD1A bx cx dx bp ax 14
+RD1A ax bx cx dx bp 15; RD1B bp ax bx cx dx 16; RD1B dx bp ax bx cx 17; RD1B cx dx bp ax bx 18; RD1B bx cx dx bp ax 19
+} | grep -v '^$'
+RD2() {
+local a=$1;local b=$2;local c=$3;local d=$4;local e=$5
+local n=$(($6))
+local n13=$(((n+13) & 15))
+local n8=$(((n+8) & 15))
+local n2=$(((n+2) & 15))
+local n0=$(((n+0) & 15))
+echo "
+# $n
+";test $n0 -lt 8 && echo "
+        movl    `W32 $n13`, %esi        # W[(n+13) & 15]
+        xorl    `W32 $n8`, %esi         # ^W[(n+8) & 15]
+        xorl    `W32 $n2`, %esi         # ^W[(n+2) & 15]
+        xorl    `W32 $n0`, %esi         # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, `W32 $n0`         # store to W[n & 15]
+";test $n0 -ge 8 && echo "
+        xorl    `W32 $n13`, `W32 $n0`   # W[n & 15] ^= W[(n+13) & 15]
+        xorl    `W32 $n8`, `W32 $n0`    # ^W[(n+8) & 15]
+        xorl    `W32 $n2`, `W32 $n0`    # ^W[(n+2) & 15]
+        roll    `W32 $n0`               #
+";echo "
+        movl    %e$c, %edi              # c
+        xorl    %e$d, %edi              # ^d
+        xorl    %e$b, %edi              # ^b
+";test $n0 -lt 8 && echo "
+        leal    $RCONST(%r$e,%rsi), %e$e # e += RCONST + W[n & 15]
+";test $n0 -ge 8 && echo "
+        leal    $RCONST(%r$e,%r$n0), %e$e # e += RCONST + W[n & 15]
+";echo "
+        addl    %edi, %e$e              # e += (c ^ d ^ b)
+        movl    %e$a, %esi              #
+        roll    \$5, %esi               # rotl32(a,5)
+        addl    %esi, %e$e              # e += rotl32(a,5)
+        rorl    \$2, %e$b               # b = rotl32(b,30)
+"
+}
+{
+RCONST=0x6ED9EBA1
+RD2 ax bx cx dx bp 20; RD2 bp ax bx cx dx 21; RD2 dx bp ax bx cx 22; RD2 cx dx bp ax bx 23; RD2 bx cx dx bp ax 24
+RD2 ax bx cx dx bp 25; RD2 bp ax bx cx dx 26; RD2 dx bp ax bx cx 27; RD2 cx dx bp ax bx 28; RD2 bx cx dx bp ax 29
+RD2 ax bx cx dx bp 30; RD2 bp ax bx cx dx 31; RD2 dx bp ax bx cx 32; RD2 cx dx bp ax bx 33; RD2 bx cx dx bp ax 34
+RD2 ax bx cx dx bp 35; RD2 bp ax bx cx dx 36; RD2 dx bp ax bx cx 37; RD2 cx dx bp ax bx 38; RD2 bx cx dx bp ax 39
+} | grep -v '^$'
+RD3() {
+local a=$1;local b=$2;local c=$3;local d=$4;local e=$5
+local n=$(($6))
+local n13=$(((n+13) & 15))
+local n8=$(((n+8) & 15))
+local n2=$(((n+2) & 15))
+local n0=$(((n+0) & 15))
+echo "
+# $n
+        movl    %e$b, %edi              # di: b
+        movl    %e$b, %esi              # si: b
+        orl     %e$c, %edi              # di: b | c
+        andl    %e$c, %esi              # si: b & c
+        andl    %e$d, %edi              # di: (b | c) & d
+        orl     %esi, %edi              # ((b | c) & d) | (b & c)
+";test $n0 -lt 8 && echo "
+        movl    `W32 $n13`, %esi        # W[(n+13) & 15]
+        xorl    `W32 $n8`, %esi         # ^W[(n+8) & 15]
+        xorl    `W32 $n2`, %esi         # ^W[(n+2) & 15]
+        xorl    `W32 $n0`, %esi         # ^W[n & 15]
+        roll    %esi                    #
+        movl    %esi, `W32 $n0`         # store to W[n & 15]
+";test $n0 -ge 8 && echo "
+        xorl    `W32 $n13`, `W32 $n0`   # W[n & 15] ^= W[(n+13) & 15]
+        xorl    `W32 $n8`, `W32 $n0`    # ^W[(n+8) & 15]
+        xorl    `W32 $n2`, `W32 $n0`    # ^W[(n+2) & 15]
+        roll    `W32 $n0`               #
+";echo "
+        addl    %edi, %e$e              # += ((b | c) & d) | (b & c)
+";test $n0 -lt 8 && echo "
+        leal    $RCONST(%r$e,%rsi), %e$e # e += RCONST + W[n & 15]
+";test $n0 -ge 8 && echo "
+        leal    $RCONST(%r$e,%r$n0), %e$e # e += RCONST + W[n & 15]
+";echo "
+        movl    %e$a, %esi              #
+        roll    \$5, %esi               # rotl32(a,5)
+        addl    %esi, %e$e              # e += rotl32(a,5)
+        rorl    \$2, %e$b               # b = rotl32(b,30)
+"
+}
+{
+#RCONST=0x8F1BBCDC "out of range for signed 32bit displacement"
+RCONST=-0x70E44324
+RD3 ax bx cx dx bp 40; RD3 bp ax bx cx dx 41; RD3 dx bp ax bx cx 42; RD3 cx dx bp ax bx 43; RD3 bx cx dx bp ax 44
+RD3 ax bx cx dx bp 45; RD3 bp ax bx cx dx 46; RD3 dx bp ax bx cx 47; RD3 cx dx bp ax bx 48; RD3 bx cx dx bp ax 49
+RD3 ax bx cx dx bp 50; RD3 bp ax bx cx dx 51; RD3 dx bp ax bx cx 52; RD3 cx dx bp ax bx 53; RD3 bx cx dx bp ax 54
+RD3 ax bx cx dx bp 55; RD3 bp ax bx cx dx 56; RD3 dx bp ax bx cx 57; RD3 cx dx bp ax bx 58; RD3 bx cx dx bp ax 59
+} | grep -v '^$'
+# Round 4 has the same logic as round 2, only n and RCONST are different
+{
+#RCONST=0xCA62C1D6 "out of range for signed 32bit displacement"
+RCONST=-0x359D3E2A
+RD2 ax bx cx dx bp 60; RD2 bp ax bx cx dx 61; RD2 dx bp ax bx cx 62; RD2 cx dx bp ax bx 63; RD2 bx cx dx bp ax 64
+RD2 ax bx cx dx bp 65; RD2 bp ax bx cx dx 66; RD2 dx bp ax bx cx 67; RD2 cx dx bp ax bx 68; RD2 bx cx dx bp ax 69
+RD2 ax bx cx dx bp 70; RD2 bp ax bx cx dx 71; RD2 dx bp ax bx cx 72; RD2 cx dx bp ax bx 73; RD2 bx cx dx bp ax 74
+RD2 ax bx cx dx bp 75; RD2 bp ax bx cx dx 76; RD2 dx bp ax bx cx 77; RD2 cx dx bp ax bx 78; RD2 bx cx dx bp ax 79
+# Note: new W[n&15] values generated in last 3 iterations
+# (W[13,14,15]) are unused after each of these iterations.
+# Since we use r8..r15 for W[8..15], this does not matter.
+# If we switch to e.g. using r8..r15 for W[0..7], then saving of W[13,14,15]
+# (the "movl %esi, `W32 $n0`" insn) is a dead store and can be removed.
+} | grep -v '^$'
+echo "
+        popq    %rdi            #
+        popq    %r12            #
+        addl    %eax, 80(%rdi)  # ctx->hash[0] += a
+        popq    %r13            #
+        addl    %ebx, 84(%rdi)  # ctx->hash[1] += b
+        popq    %r14            #
+        addl    %ecx, 88(%rdi)  # ctx->hash[2] += c
+        popq    %r15            #
+        addl    %edx, 92(%rdi)  # ctx->hash[3] += d
+        popq    %rbx            #
+        addl    %ebp, 96(%rdi)  # ctx->hash[4] += e
+        popq    %rbp            #
+        ret
+        .size   sha1_process_block64, .-sha1_process_block64
+#endif"
diff --git a/libbb/vfork_daemon_rexec.c b/libbb/vfork_daemon_rexec.c
index 151739ae2..62beb6a5d 100644
--- a/libbb/vfork_daemon_rexec.c
+++ b/libbb/vfork_daemon_rexec.c
@@ -313,7 +313,7 @@ void FAST_FUNC bb_daemonize_or_rexec(int flags, char **argv)
                /* fflush_all(); - add it in fork_or_rexec() if necessary */
                if (fork_or_rexec(argv))
-                        _exit(EXIT_SUCCESS); /* parent */
+                        _exit_SUCCESS(); /* parent */
                /* if daemonizing, detach from stdio & ctty */
                setsid();
                dup2(fd, 0);
@@ -325,7 +325,7 @@ void FAST_FUNC bb_daemonize_or_rexec(int flags, char **argv)
 //                       * Prevent this: stop being a session leader.
 //                       */
 //                      if (fork_or_rexec(argv))
-//                              _exit(EXIT_SUCCESS); /* parent */
+//                              _exit_SUCCESS(); /* parent */
 //              }
        }
        while (fd > 2) {
diff --git a/libbb/xfuncs.c b/libbb/xfuncs.c
index 102b5a227..388b246ca 100644
--- a/libbb/xfuncs.c
+++ b/libbb/xfuncs.c
@@ -427,3 +427,13 @@ int FAST_FUNC wait4pid(pid_t pid)
                return WTERMSIG(status) + 0x180;
        return 0;
 }
+void FAST_FUNC exit_SUCCESS(void)
+{
+        exit(EXIT_SUCCESS);
+}
+void FAST_FUNC _exit_SUCCESS(void)
+{
+        _exit(EXIT_SUCCESS);
+}
diff --git a/libbb/xfuncs_printf.c b/libbb/xfuncs_printf.c
index d7d8b1092..aae3b092d 100644
--- a/libbb/xfuncs_printf.c
+++ b/libbb/xfuncs_printf.c
@@ -91,13 +91,10 @@ char* FAST_FUNC xstrdup(const char *s)
 // Die if we can't allocate n+1 bytes (space for the null terminator) and copy
 // the (possibly truncated to length n) string into it.
-char* FAST_FUNC xstrndup(const char *s, int n)
+char* FAST_FUNC xstrndup(const char *s, size_t n)
 {
        char *t;
-        if (ENABLE_DEBUG && s == NULL)
-                bb_simple_error_msg_and_die("xstrndup bug");
        t = strndup(s, n);
        if (t == NULL)
@@ -106,7 +103,7 @@ char* FAST_FUNC xstrndup(const char *s, int n)
        return t;
 }
-void* FAST_FUNC xmemdup(const void *s, int n)
+void* FAST_FUNC xmemdup(const void *s, size_t n)
 {
        return memcpy(xmalloc(n), s, n);
 }
author	Ron Yorston <rmy@pobox.com>	2022-01-06 07:46:38 +0000
committer	Ron Yorston <rmy@pobox.com>	2022-01-06 07:46:38 +0000
commit	b8751bbc9ac24e71fbe1e79c69074b4c87a134d8 (patch)
tree	336d653df8387b9b1d3c6e46caa373c00cb9b2b2 /libbb
parent	b15f68214da209b5b293039c09c00f490c0cc193 (diff)
parent	6062c0d19bc201cbeb61b8875598cdd7a14a5ae0 (diff)
download	busybox-w32-b8751bbc9ac24e71fbe1e79c69074b4c87a134d8.tar.gz busybox-w32-b8751bbc9ac24e71fbe1e79c69074b4c87a134d8.tar.bz2 busybox-w32-b8751bbc9ac24e71fbe1e79c69074b4c87a134d8.zip