5 files changed, 60 insertions, 5316 deletions
diff --git a/src/lib/libcrypto/aes/asm/aes-586.pl b/src/lib/libcrypto/aes/asm/aes-586.pl
index 364099d4d3..402a1a3c46 100644
--- a/src/lib/libcrypto/aes/asm/aes-586.pl
+++ b/src/lib/libcrypto/aes/asm/aes-586.pl
@@ -1158,8 +1158,8 @@ sub enclast()
        &data_word(0x00000000, 0x00000000, 0x00000000, 0x00000000);
        &previous();
-# void aes_encrypt_internal(const void *inp, void *out, const AES_KEY *key);
+# void aes_encrypt_generic(const void *inp, void *out, const AES_KEY *key);
-&function_begin("aes_encrypt_internal");
+&function_begin("aes_encrypt_generic");
        &mov    ($acc,&wparam(0));              # load inp
        &mov    ($key,&wparam(2));              # load key
@@ -1213,7 +1213,7 @@ sub enclast()
        &mov    (&DWP(4,$acc),$s1);
        &mov    (&DWP(8,$acc),$s2);
        &mov    (&DWP(12,$acc),$s3);
-&function_end("aes_encrypt_internal");
+&function_end("aes_encrypt_generic");
 #--------------------------------------------------------------------#
@@ -1947,8 +1947,8 @@ sub declast()
        &data_byte(0xe1, 0x69, 0x14, 0x63, 0x55, 0x21, 0x0c, 0x7d);
        &previous();
-# void aes_decrypt_internal(const void *inp, void *out, const AES_KEY *key);
+# void aes_decrypt_generic(const void *inp, void *out, const AES_KEY *key);
-&function_begin("aes_decrypt_internal");
+&function_begin("aes_decrypt_generic");
        &mov    ($acc,&wparam(0));              # load inp
        &mov    ($key,&wparam(2));              # load key
@@ -2002,9 +2002,9 @@ sub declast()
        &mov    (&DWP(4,$acc),$s1);
        &mov    (&DWP(8,$acc),$s2);
        &mov    (&DWP(12,$acc),$s3);
-&function_end("aes_decrypt_internal");
+&function_end("aes_decrypt_generic");
-# void aes_cbc_encrypt_internal(const void char *inp, unsigned char *out,
+# void aes_cbc_encrypt_generic(const void char *inp, unsigned char *out,
 #     size_t length, const AES_KEY *key, unsigned char *ivp,const int enc);
 {
 # stack frame layout
@@ -2028,7 +2028,7 @@ my $ivec=&DWP(60,"esp");	# ivec[16]
 my $aes_key=&DWP(76,"esp");     # copy of aes_key
 my $mark=&DWP(76+240,"esp");    # copy of aes_key->rounds
-&function_begin("aes_cbc_encrypt_internal");
+&function_begin("aes_cbc_encrypt_generic");
        &mov    ($s2 eq "ecx"? $s2 : "",&wparam(2));    # load len
        &cmp    ($s2,0);
        &je     (&label("drop_out"));
@@ -2616,7 +2616,7 @@ my $mark=&DWP(76+240,"esp");	# copy of aes_key->rounds
        &mov    ("esp",$_esp);
        &popf   ();
-&function_end("aes_cbc_encrypt_internal");
+&function_end("aes_cbc_encrypt_generic");
 }
 #------------------------------------------------------------------#
@@ -2849,12 +2849,12 @@ sub enckey()
    &set_label("exit");
 &function_end("_x86_AES_set_encrypt_key");
-# int aes_set_encrypt_key_internal(const unsigned char *userKey, const int bits,
+# int aes_set_encrypt_key_generic(const unsigned char *userKey, const int bits,
 #      AES_KEY *key)
-&function_begin_B("aes_set_encrypt_key_internal");
+&function_begin_B("aes_set_encrypt_key_generic");
        &call   ("_x86_AES_set_encrypt_key");
        &ret    ();
-&function_end_B("aes_set_encrypt_key_internal");
+&function_end_B("aes_set_encrypt_key_generic");
 sub deckey()
 { my ($i,$key,$tp1,$tp2,$tp4,$tp8) = @_;
@@ -2911,9 +2911,9 @@ sub deckey()
        &mov    (&DWP(4*$i,$key),$tp1);
 }
-# int aes_set_decrypt_key_internal(const unsigned char *userKey, const int bits,
+# int aes_set_decrypt_key_generic(const unsigned char *userKey, const int bits,
 #     AES_KEY *key)
-&function_begin_B("aes_set_decrypt_key_internal");
+&function_begin_B("aes_set_decrypt_key_generic");
        &call   ("_x86_AES_set_encrypt_key");
        &cmp    ("eax",0);
        &je     (&label("proceed"));
@@ -2969,6 +2969,6 @@ sub deckey()
        &jb     (&label("permute"));
        &xor    ("eax","eax");                  # return success
-&function_end("aes_set_decrypt_key_internal");
+&function_end("aes_set_decrypt_key_generic");
 &asm_finish();
diff --git a/src/lib/libcrypto/aes/asm/aes-x86_64.pl b/src/lib/libcrypto/aes/asm/aes-x86_64.pl
index 324c4a2be2..2c73627546 100755
--- a/src/lib/libcrypto/aes/asm/aes-x86_64.pl
+++ b/src/lib/libcrypto/aes/asm/aes-x86_64.pl
@@ -586,15 +586,15 @@ $code.=<<___;
 .size   _x86_64_AES_encrypt_compact,.-_x86_64_AES_encrypt_compact
 ___
-# void aes_encrypt_internal(const void *inp, void *out, const AES_KEY *key);
+# void aes_encrypt_generic(const void *inp, void *out, const AES_KEY *key);
 $code.=<<___;
-.globl  aes_encrypt_internal
+.globl  aes_encrypt_generic
-.type   aes_encrypt_internal,\@function,3
+.type   aes_encrypt_generic,\@function,3
 .align  16
 .globl  asm_AES_encrypt
 .hidden asm_AES_encrypt
 asm_AES_encrypt:
-aes_encrypt_internal:
+aes_encrypt_generic:
        _CET_ENDBR
        push    %rbx
        push    %rbp
@@ -655,7 +655,7 @@ aes_encrypt_internal:
        lea     48(%rsi),%rsp
 .Lenc_epilogue:
        ret
-.size   aes_encrypt_internal,.-aes_encrypt_internal
+.size   aes_encrypt_generic,.-aes_encrypt_generic
 ___
 #------------------------------------------------------------------#
@@ -1188,15 +1188,15 @@ $code.=<<___;
 .size   _x86_64_AES_decrypt_compact,.-_x86_64_AES_decrypt_compact
 ___
-# void aes_decrypt_internal(const void *inp, void *out, const AES_KEY *key);
+# void aes_decrypt_generic(const void *inp, void *out, const AES_KEY *key);
 $code.=<<___;
-.globl  aes_decrypt_internal
+.globl  aes_decrypt_generic
-.type   aes_decrypt_internal,\@function,3
+.type   aes_decrypt_generic,\@function,3
 .align  16
 .globl  asm_AES_decrypt
 .hidden asm_AES_decrypt
 asm_AES_decrypt:
-aes_decrypt_internal:
+aes_decrypt_generic:
        _CET_ENDBR
        push    %rbx
        push    %rbp
@@ -1259,7 +1259,7 @@ aes_decrypt_internal:
        lea     48(%rsi),%rsp
 .Ldec_epilogue:
        ret
-.size   aes_decrypt_internal,.-aes_decrypt_internal
+.size   aes_decrypt_generic,.-aes_decrypt_generic
 ___
 #------------------------------------------------------------------#
@@ -1290,13 +1290,13 @@ $code.=<<___;
 ___
 }
-# int aes_set_encrypt_key_internal(const unsigned char *userKey, const int bits,
+# int aes_set_encrypt_key_generic(const unsigned char *userKey, const int bits,
 #     AES_KEY *key)
 $code.=<<___;
-.globl  aes_set_encrypt_key_internal
+.globl  aes_set_encrypt_key_generic
-.type   aes_set_encrypt_key_internal,\@function,3
+.type   aes_set_encrypt_key_generic,\@function,3
 .align  16
-aes_set_encrypt_key_internal:
+aes_set_encrypt_key_generic:
        _CET_ENDBR
        push    %rbx
        push    %rbp
@@ -1318,7 +1318,7 @@ aes_set_encrypt_key_internal:
        add     \$56,%rsp
 .Lenc_key_epilogue:
        ret
-.size   aes_set_encrypt_key_internal,.-aes_set_encrypt_key_internal
+.size   aes_set_encrypt_key_generic,.-aes_set_encrypt_key_generic
 .type   _x86_64_AES_set_encrypt_key,\@abi-omnipotent
 .align  16
@@ -1562,13 +1562,13 @@ $code.=<<___;
 ___
 }
-# int aes_set_decrypt_key_internal(const unsigned char *userKey, const int bits,
+# int aes_set_decrypt_key_generic(const unsigned char *userKey, const int bits,
 #     AES_KEY *key)
 $code.=<<___;
-.globl  aes_set_decrypt_key_internal
+.globl  aes_set_decrypt_key_generic
-.type   aes_set_decrypt_key_internal,\@function,3
+.type   aes_set_decrypt_key_generic,\@function,3
 .align  16
-aes_set_decrypt_key_internal:
+aes_set_decrypt_key_generic:
        _CET_ENDBR
        push    %rbx
        push    %rbp
@@ -1638,10 +1638,10 @@ $code.=<<___;
        add     \$56,%rsp
 .Ldec_key_epilogue:
        ret
-.size   aes_set_decrypt_key_internal,.-aes_set_decrypt_key_internal
+.size   aes_set_decrypt_key_generic,.-aes_set_decrypt_key_generic
 ___
-# void aes_cbc_encrypt_internal(const void char *inp, unsigned char *out,
+# void aes_cbc_encrypt_generic(const void char *inp, unsigned char *out,
 #     size_t length, const AES_KEY *key, unsigned char *ivp,const int enc);
 {
 # stack frame layout
@@ -1659,15 +1659,15 @@ my $aes_key="80(%rsp)";		# copy of aes_key
 my $mark="80+240(%rsp)";        # copy of aes_key->rounds
 $code.=<<___;
-.globl  aes_cbc_encrypt_internal
+.globl  aes_cbc_encrypt_generic
-.type   aes_cbc_encrypt_internal,\@function,6
+.type   aes_cbc_encrypt_generic,\@function,6
 .align  16
 .extern OPENSSL_ia32cap_P
 .hidden OPENSSL_ia32cap_P
 .globl  asm_AES_cbc_encrypt
 .hidden asm_AES_cbc_encrypt
 asm_AES_cbc_encrypt:
-aes_cbc_encrypt_internal:
+aes_cbc_encrypt_generic:
        _CET_ENDBR
        cmp     \$0,%rdx        # check length
        je      .Lcbc_epilogue
@@ -2117,7 +2117,7 @@ aes_cbc_encrypt_internal:
        popfq
 .Lcbc_epilogue:
        ret
-.size   aes_cbc_encrypt_internal,.-aes_cbc_encrypt_internal
+.size   aes_cbc_encrypt_generic,.-aes_cbc_encrypt_generic
 ___
 }
@@ -2782,45 +2782,45 @@ cbc_se_handler:
 .section        .pdata
 .align  4
-        .rva    .LSEH_begin_aes_encrypt_internal
+        .rva    .LSEH_begin_aes_encrypt_generic
-        .rva    .LSEH_end_aes_encrypt_internal
+        .rva    .LSEH_end_aes_encrypt_generic
-        .rva    .LSEH_info_aes_encrypt_internal
+        .rva    .LSEH_info_aes_encrypt_generic
-        .rva    .LSEH_begin_aes_decrypt_internal
+        .rva    .LSEH_begin_aes_decrypt_generic
-        .rva    .LSEH_end_aes_decrypt_internal
+        .rva    .LSEH_end_aes_decrypt_generic
-        .rva    .LSEH_info_aes_decrypt_internal
+        .rva    .LSEH_info_aes_decrypt_generic
-        .rva    .LSEH_begin_aes_set_encrypt_key_internal
+        .rva    .LSEH_begin_aes_set_encrypt_key_generic
-        .rva    .LSEH_end_aes_set_encrypt_key_internal
+        .rva    .LSEH_end_aes_set_encrypt_key_generic
-        .rva    .LSEH_info_aes_set_encrypt_key_internal
+        .rva    .LSEH_info_aes_set_encrypt_key_generic
-        .rva    .LSEH_begin_aes_set_decrypt_key_internal
+        .rva    .LSEH_begin_aes_set_decrypt_key_generic
-        .rva    .LSEH_end_aes_set_decrypt_key_internal
+        .rva    .LSEH_end_aes_set_decrypt_key_generic
-        .rva    .LSEH_info_aes_set_decrypt_key_internal
+        .rva    .LSEH_info_aes_set_decrypt_key_generic
-        .rva    .LSEH_begin_aes_cbc_encrypt_internal
+        .rva    .LSEH_begin_aes_cbc_encrypt_generic
-        .rva    .LSEH_end_aes_cbc_encrypt_internal
+        .rva    .LSEH_end_aes_cbc_encrypt_generic
-        .rva    .LSEH_info_aes_cbc_encrypt_internal
+        .rva    .LSEH_info_aes_cbc_encrypt_generic
 .section        .xdata
 .align  8
-.LSEH_info_aes_encrypt_internal:
+.LSEH_info_aes_encrypt_generic:
        .byte   9,0,0,0
        .rva    block_se_handler
        .rva    .Lenc_prologue,.Lenc_epilogue   # HandlerData[]
-.LSEH_info_aes_decrypt_internal:
+.LSEH_info_aes_decrypt_generic:
        .byte   9,0,0,0
        .rva    block_se_handler
        .rva    .Ldec_prologue,.Ldec_epilogue   # HandlerData[]
-.LSEH_info_aes_set_encrypt_key_internal:
+.LSEH_info_aes_set_encrypt_key_generic:
        .byte   9,0,0,0
        .rva    key_se_handler
        .rva    .Lenc_key_prologue,.Lenc_key_epilogue   # HandlerData[]
-.LSEH_info_aes_set_decrypt_key_internal:
+.LSEH_info_aes_set_decrypt_key_generic:
        .byte   9,0,0,0
        .rva    key_se_handler
        .rva    .Ldec_key_prologue,.Ldec_key_epilogue   # HandlerData[]
-.LSEH_info_aes_cbc_encrypt_internal:
+.LSEH_info_aes_cbc_encrypt_generic:
        .byte   9,0,0,0
        .rva    cbc_se_handler
 ___
diff --git a/src/lib/libcrypto/aes/asm/bsaes-x86_64.pl b/src/lib/libcrypto/aes/asm/bsaes-x86_64.pl
deleted file mode 100644
index c44a338114..0000000000
--- a/src/lib/libcrypto/aes/asm/bsaes-x86_64.pl
+++ /dev/null
@@ -1,3123 +0,0 @@
-#!/usr/bin/env perl
-###################################################################
-### AES-128 [originally in CTR mode]                            ###
-### bitsliced implementation for Intel Core 2 processors        ###
-### requires support of SSE extensions up to SSSE3              ###
-### Author: Emilia Käsper and Peter Schwabe                    ###
-### Date: 2009-03-19                                            ###
-### Public domain                                               ###
-###                                                             ###
-### See http://homes.esat.kuleuven.be/~ekasper/#software for    ###
-### further information.                                        ###
-###################################################################
-#
-# September 2011.
-#
-# Started as transliteration to "perlasm" the original code has
-# undergone following changes:
-#
-# - code was made position-independent;
-# - rounds were folded into a loop resulting in >5x size reduction
-#   from 12.5KB to 2.2KB;
-# - above was possible thanks to mixcolumns() modification that
-#   allowed to feed its output back to aesenc[last], this was
-#   achieved at cost of two additional inter-registers moves;
-# - some instruction reordering and interleaving;
-# - this module doesn't implement key setup subroutine, instead it
-#   relies on conversion of "conventional" key schedule as returned
-#   by AES_set_encrypt_key (see discussion below);
-# - first and last round keys are treated differently, which allowed
-#   to skip one shiftrows(), reduce bit-sliced key schedule and
-#   speed-up conversion by 22%;
-# - support for 192- and 256-bit keys was added;
-#
-# Resulting performance in CPU cycles spent to encrypt one byte out
-# of 4096-byte buffer with 128-bit key is:
-#
-#               Emilia's        this(*)         difference
-#
-# Core 2        9.30            8.69            +7%
-# Nehalem(**)   7.63            6.98            +9%
-# Atom          17.1            17.4            -2%(***)
-#
-# (*)   Comparison is not completely fair, because "this" is ECB,
-#       i.e. no extra processing such as counter values calculation
-#       and xor-ing input as in Emilia's CTR implementation is
-#       performed. However, the CTR calculations stand for not more
-#       than 1% of total time, so comparison is *rather* fair.
-#
-# (**)  Results were collected on Westmere, which is considered to
-#       be equivalent to Nehalem for this code.
-#
-# (***) Slowdown on Atom is rather strange per se, because original
-#       implementation has a number of 9+-bytes instructions, which
-#       are bad for Atom front-end, and which I eliminated completely.
-#       In attempt to address deterioration sbox() was tested in FP
-#       SIMD "domain" (movaps instead of movdqa, xorps instead of
-#       pxor, etc.). While it resulted in nominal 4% improvement on
-#       Atom, it hurted Westmere by more than 2x factor.
-#
-# As for key schedule conversion subroutine. Interface to OpenSSL
-# relies on per-invocation on-the-fly conversion. This naturally
-# has impact on performance, especially for short inputs. Conversion
-# time in CPU cycles and its ratio to CPU cycles spent in 8x block
-# function is:
-#
-#               conversion      conversion/8x block
-# Core 2        240             0.22
-# Nehalem       180             0.20
-# Atom          430             0.19
-#
-# The ratio values mean that 128-byte blocks will be processed
-# 16-18% slower, 256-byte blocks - 9-10%, 384-byte blocks - 6-7%,
-# etc. Then keep in mind that input sizes not divisible by 128 are
-# *effectively* slower, especially shortest ones, e.g. consecutive
-# 144-byte blocks are processed 44% slower than one would expect,
-# 272 - 29%, 400 - 22%, etc. Yet, despite all these "shortcomings"
-# it's still faster than ["hyper-threading-safe" code path in]
-# aes-x86_64.pl on all lengths above 64 bytes...
-#
-# October 2011.
-#
-# Add decryption procedure. Performance in CPU cycles spent to decrypt
-# one byte out of 4096-byte buffer with 128-bit key is:
-#
-# Core 2        9.83
-# Nehalem       7.74
-# Atom          19.0
-#
-# November 2011.
-#
-# Add bsaes_xts_[en|de]crypt. Less-than-80-bytes-block performance is
-# suboptimal, but XTS is meant to be used with larger blocks...
-#
-#                                               <appro@openssl.org>
-$flavour = shift;
-$output  = shift;
-if ($flavour =~ /\./) { $output = $flavour; undef $flavour; }
-$win64=0; $win64=1 if ($flavour =~ /[nm]asm|mingw64/ || $output =~ /\.asm$/);
-$0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
-( $xlate="${dir}x86_64-xlate.pl" and -f $xlate ) or
-( $xlate="${dir}../../perlasm/x86_64-xlate.pl" and -f $xlate) or
-die "can't locate x86_64-xlate.pl";
-open OUT,"| \"$^X\" $xlate $flavour $output";
-*STDOUT=*OUT;
-my ($inp,$out,$len,$key,$ivp)=("%rdi","%rsi","%rdx","%rcx");
-my @XMM=map("%xmm$_",(15,0..14));       # best on Atom, +10% over (0..15)
-my $ecb=0;      # suppress unreferenced ECB subroutines, spare some space...
-{
-my ($key,$rounds,$const)=("%rax","%r10d","%r11");
-sub Sbox {
-# input in  lsb > [b0, b1, b2, b3, b4, b5, b6, b7] < msb
-# output in lsb > [b0, b1, b4, b6, b3, b7, b2, b5] < msb
-my @b=@_[0..7];
-my @t=@_[8..11];
-my @s=@_[12..15];
-        &InBasisChange  (@b);
-        &Inv_GF256      (@b[6,5,0,3,7,1,4,2],@t,@s);
-        &OutBasisChange (@b[7,1,4,2,6,5,0,3]);
-}
-sub InBasisChange {
-# input in  lsb > [b0, b1, b2, b3, b4, b5, b6, b7] < msb
-# output in lsb > [b6, b5, b0, b3, b7, b1, b4, b2] < msb 
-my @b=@_[0..7];
-$code.=<<___;
-        pxor    @b[6], @b[5]
-        pxor    @b[1], @b[2]
-        pxor    @b[0], @b[3]
-        pxor    @b[2], @b[6]
-        pxor    @b[0], @b[5]
-        pxor    @b[3], @b[6]
-        pxor    @b[7], @b[3]
-        pxor    @b[5], @b[7]
-        pxor    @b[4], @b[3]
-        pxor    @b[5], @b[4]
-        pxor    @b[1], @b[3]
-        pxor    @b[7], @b[2]
-        pxor    @b[5], @b[1]
-___
-}
-sub OutBasisChange {
-# input in  lsb > [b0, b1, b2, b3, b4, b5, b6, b7] < msb
-# output in lsb > [b6, b1, b2, b4, b7, b0, b3, b5] < msb
-my @b=@_[0..7];
-$code.=<<___;
-        pxor    @b[6], @b[0]
-        pxor    @b[4], @b[1]
-        pxor    @b[0], @b[2]
-        pxor    @b[6], @b[4]
-        pxor    @b[1], @b[6]
-        pxor    @b[5], @b[1]
-        pxor    @b[3], @b[5]
-        pxor    @b[7], @b[3]
-        pxor    @b[5], @b[7]
-        pxor    @b[5], @b[2]
-        pxor    @b[7], @b[4]
-___
-}
-sub InvSbox {
-# input in lsb  > [b0, b1, b2, b3, b4, b5, b6, b7] < msb
-# output in lsb > [b0, b1, b6, b4, b2, b7, b3, b5] < msb
-my @b=@_[0..7];
-my @t=@_[8..11];
-my @s=@_[12..15];
-        &InvInBasisChange       (@b);
-        &Inv_GF256              (@b[5,1,2,6,3,7,0,4],@t,@s);
-        &InvOutBasisChange      (@b[3,7,0,4,5,1,2,6]);
-}
-sub InvInBasisChange {          # OutBasisChange in reverse
-my @b=@_[5,1,2,6,3,7,0,4];
-$code.=<<___
-        pxor    @b[7], @b[4]
-        pxor    @b[5], @b[7]
-        pxor    @b[5], @b[2]
-        pxor    @b[7], @b[3]
-        pxor    @b[3], @b[5]
-        pxor    @b[5], @b[1]
-        pxor    @b[1], @b[6]
-        pxor    @b[0], @b[2]
-        pxor    @b[6], @b[4]
-        pxor    @b[6], @b[0]
-        pxor    @b[4], @b[1]
-___
-}
-sub InvOutBasisChange {         # InBasisChange in reverse
-my @b=@_[2,5,7,3,6,1,0,4];
-$code.=<<___;
-        pxor    @b[5], @b[1]
-        pxor    @b[7], @b[2]
-        pxor    @b[1], @b[3]
-        pxor    @b[5], @b[4]
-        pxor    @b[5], @b[7]
-        pxor    @b[4], @b[3]
-         pxor   @b[0], @b[5]
-        pxor    @b[7], @b[3]
-         pxor   @b[2], @b[6]
-         pxor   @b[1], @b[2]
-        pxor    @b[3], @b[6]
-        pxor    @b[0], @b[3]
-        pxor    @b[6], @b[5]
-___
-}
-sub Mul_GF4 {
-#;*************************************************************
-#;* Mul_GF4: Input x0-x1,y0-y1 Output x0-x1 Temp t0 (8) *
-#;*************************************************************
-my ($x0,$x1,$y0,$y1,$t0)=@_;
-$code.=<<___;
-        movdqa  $y0, $t0
-        pxor    $y1, $t0
-        pand    $x0, $t0
-        pxor    $x1, $x0
-        pand    $y0, $x1
-        pand    $y1, $x0
-        pxor    $x1, $x0
-        pxor    $t0, $x1
-___
-}
-sub Mul_GF4_N {                         # not used, see next subroutine
-# multiply and scale by N
-my ($x0,$x1,$y0,$y1,$t0)=@_;
-$code.=<<___;
-        movdqa  $y0, $t0
-        pxor    $y1, $t0
-        pand    $x0, $t0
-        pxor    $x1, $x0
-        pand    $y0, $x1
-        pand    $y1, $x0
-        pxor    $x0, $x1
-        pxor    $t0, $x0
-___
-}
-sub Mul_GF4_N_GF4 {
-# interleaved Mul_GF4_N and Mul_GF4
-my ($x0,$x1,$y0,$y1,$t0,
-    $x2,$x3,$y2,$y3,$t1)=@_;
-$code.=<<___;
-        movdqa  $y0, $t0
-         movdqa $y2, $t1
-        pxor    $y1, $t0
-         pxor   $y3, $t1
-        pand    $x0, $t0
-         pand   $x2, $t1
-        pxor    $x1, $x0
-         pxor   $x3, $x2
-        pand    $y0, $x1
-         pand   $y2, $x3
-        pand    $y1, $x0
-         pand   $y3, $x2
-        pxor    $x0, $x1
-         pxor   $x3, $x2
-        pxor    $t0, $x0
-         pxor   $t1, $x3
-___
-}
-sub Mul_GF16_2 {
-my @x=@_[0..7];
-my @y=@_[8..11];
-my @t=@_[12..15];
-$code.=<<___;
-        movdqa  @x[0], @t[0]
-        movdqa  @x[1], @t[1]
-___
-        &Mul_GF4        (@x[0], @x[1], @y[0], @y[1], @t[2]);
-$code.=<<___;
-        pxor    @x[2], @t[0]
-        pxor    @x[3], @t[1]
-        pxor    @y[2], @y[0]
-        pxor    @y[3], @y[1]
-___
-        Mul_GF4_N_GF4   (@t[0], @t[1], @y[0], @y[1], @t[3],
-                         @x[2], @x[3], @y[2], @y[3], @t[2]);
-$code.=<<___;
-        pxor    @t[0], @x[0]
-        pxor    @t[0], @x[2]
-        pxor    @t[1], @x[1]
-        pxor    @t[1], @x[3]
-        movdqa  @x[4], @t[0]
-        movdqa  @x[5], @t[1]
-        pxor    @x[6], @t[0]
-        pxor    @x[7], @t[1]
-___
-        &Mul_GF4_N_GF4  (@t[0], @t[1], @y[0], @y[1], @t[3],
-                         @x[6], @x[7], @y[2], @y[3], @t[2]);
-$code.=<<___;
-        pxor    @y[2], @y[0]
-        pxor    @y[3], @y[1]
-___
-        &Mul_GF4        (@x[4], @x[5], @y[0], @y[1], @t[3]);
-$code.=<<___;
-        pxor    @t[0], @x[4]
-        pxor    @t[0], @x[6]
-        pxor    @t[1], @x[5]
-        pxor    @t[1], @x[7]
-___
-}
-sub Inv_GF256 {
-#;********************************************************************
-#;* Inv_GF256: Input x0-x7 Output x0-x7 Temp t0-t3,s0-s3 (144)       *
-#;********************************************************************
-my @x=@_[0..7];
-my @t=@_[8..11];
-my @s=@_[12..15];
-# direct optimizations from hardware
-$code.=<<___;
-        movdqa  @x[4], @t[3]
-        movdqa  @x[5], @t[2]
-        movdqa  @x[1], @t[1]
-        movdqa  @x[7], @s[1]
-        movdqa  @x[0], @s[0]
-        pxor    @x[6], @t[3]
-        pxor    @x[7], @t[2]
-        pxor    @x[3], @t[1]
-         movdqa @t[3], @s[2]
-        pxor    @x[6], @s[1]
-         movdqa @t[2], @t[0]
-        pxor    @x[2], @s[0]
-         movdqa @t[3], @s[3]
-        por     @t[1], @t[2]
-        por     @s[0], @t[3]
-        pxor    @t[0], @s[3]
-        pand    @s[0], @s[2]
-        pxor    @t[1], @s[0]
-        pand    @t[1], @t[0]
-        pand    @s[0], @s[3]
-        movdqa  @x[3], @s[0]
-        pxor    @x[2], @s[0]
-        pand    @s[0], @s[1]
-        pxor    @s[1], @t[3]
-        pxor    @s[1], @t[2]
-        movdqa  @x[4], @s[1]
-        movdqa  @x[1], @s[0]
-        pxor    @x[5], @s[1]
-        pxor    @x[0], @s[0]
-        movdqa  @s[1], @t[1]
-        pand    @s[0], @s[1]
-        por     @s[0], @t[1]
-        pxor    @s[1], @t[0]
-        pxor    @s[3], @t[3]
-        pxor    @s[2], @t[2]
-        pxor    @s[3], @t[1]
-        movdqa  @x[7], @s[0]
-        pxor    @s[2], @t[0]
-        movdqa  @x[6], @s[1]
-        pxor    @s[2], @t[1]
-        movdqa  @x[5], @s[2]
-        pand    @x[3], @s[0]
-        movdqa  @x[4], @s[3]
-        pand    @x[2], @s[1]
-        pand    @x[1], @s[2]
-        por     @x[0], @s[3]
-        pxor    @s[0], @t[3]
-        pxor    @s[1], @t[2]
-        pxor    @s[2], @t[1]
-        pxor    @s[3], @t[0] 
-        #Inv_GF16 \t0, \t1, \t2, \t3, \s0, \s1, \s2, \s3
-        # new smaller inversion
-        movdqa  @t[3], @s[0]
-        pand    @t[1], @t[3]
-        pxor    @t[2], @s[0]
-        movdqa  @t[0], @s[2]
-        movdqa  @s[0], @s[3]
-        pxor    @t[3], @s[2]
-        pand    @s[2], @s[3]
-        movdqa  @t[1], @s[1]
-        pxor    @t[2], @s[3]
-        pxor    @t[0], @s[1]
-        pxor    @t[2], @t[3]
-        pand    @t[3], @s[1]
-        movdqa  @s[2], @t[2]
-        pxor    @t[0], @s[1]
-        pxor    @s[1], @t[2]
-        pxor    @s[1], @t[1]
-        pand    @t[0], @t[2]
-        pxor    @t[2], @s[2]
-        pxor    @t[2], @t[1]
-        pand    @s[3], @s[2]
-        pxor    @s[0], @s[2]
-___
-# output in s3, s2, s1, t1
-# Mul_GF16_2 \x0, \x1, \x2, \x3, \x4, \x5, \x6, \x7, \t2, \t3, \t0, \t1, \s0, \s1, \s2, \s3
-# Mul_GF16_2 \x0, \x1, \x2, \x3, \x4, \x5, \x6, \x7, \s3, \s2, \s1, \t1, \s0, \t0, \t2, \t3
-        &Mul_GF16_2(@x,@s[3,2,1],@t[1],@s[0],@t[0,2,3]);
-### output msb > [x3,x2,x1,x0,x7,x6,x5,x4] < lsb
-}
-# AES linear components
-sub ShiftRows {
-my @x=@_[0..7];
-my $mask=pop;
-$code.=<<___;
-        pxor    0x00($key),@x[0]
-        pxor    0x10($key),@x[1]
-        pshufb  $mask,@x[0]
-        pxor    0x20($key),@x[2]
-        pshufb  $mask,@x[1]
-        pxor    0x30($key),@x[3]
-        pshufb  $mask,@x[2]
-        pxor    0x40($key),@x[4]
-        pshufb  $mask,@x[3]
-        pxor    0x50($key),@x[5]
-        pshufb  $mask,@x[4]
-        pxor    0x60($key),@x[6]
-        pshufb  $mask,@x[5]
-        pxor    0x70($key),@x[7]
-        pshufb  $mask,@x[6]
-        lea     0x80($key),$key
-        pshufb  $mask,@x[7]
-___
-}
-sub MixColumns {
-# modified to emit output in order suitable for feeding back to aesenc[last]
-my @x=@_[0..7];
-my @t=@_[8..15];
-my $inv=@_[16]; # optional
-$code.=<<___;
-        pshufd  \$0x93, @x[0], @t[0]    # x0 <<< 32
-        pshufd  \$0x93, @x[1], @t[1]
-         pxor   @t[0], @x[0]            # x0 ^ (x0 <<< 32)
-        pshufd  \$0x93, @x[2], @t[2]
-         pxor   @t[1], @x[1]
-        pshufd  \$0x93, @x[3], @t[3]
-         pxor   @t[2], @x[2]
-        pshufd  \$0x93, @x[4], @t[4]
-         pxor   @t[3], @x[3]
-        pshufd  \$0x93, @x[5], @t[5]
-         pxor   @t[4], @x[4]
-        pshufd  \$0x93, @x[6], @t[6]
-         pxor   @t[5], @x[5]
-        pshufd  \$0x93, @x[7], @t[7]
-         pxor   @t[6], @x[6]
-         pxor   @t[7], @x[7]
-        pxor    @x[0], @t[1]
-        pxor    @x[7], @t[0]
-        pxor    @x[7], @t[1]
-         pshufd \$0x4E, @x[0], @x[0]    # (x0 ^ (x0 <<< 32)) <<< 64)
-        pxor    @x[1], @t[2]
-         pshufd \$0x4E, @x[1], @x[1]
-        pxor    @x[4], @t[5]
-         pxor   @t[0], @x[0]
-        pxor    @x[5], @t[6]
-         pxor   @t[1], @x[1]
-        pxor    @x[3], @t[4]
-         pshufd \$0x4E, @x[4], @t[0]
-        pxor    @x[6], @t[7]
-         pshufd \$0x4E, @x[5], @t[1]
-        pxor    @x[2], @t[3]
-         pshufd \$0x4E, @x[3], @x[4]
-        pxor    @x[7], @t[3]
-         pshufd \$0x4E, @x[7], @x[5]
-        pxor    @x[7], @t[4]
-         pshufd \$0x4E, @x[6], @x[3]
-        pxor    @t[4], @t[0]
-         pshufd \$0x4E, @x[2], @x[6]
-        pxor    @t[5], @t[1]
-___
-$code.=<<___ if (!$inv);
-        pxor    @t[3], @x[4]
-        pxor    @t[7], @x[5]
-        pxor    @t[6], @x[3]
-         movdqa @t[0], @x[2]
-        pxor    @t[2], @x[6]
-         movdqa @t[1], @x[7]
-___
-$code.=<<___ if ($inv);
-        pxor    @x[4], @t[3]
-        pxor    @t[7], @x[5]
-        pxor    @x[3], @t[6]
-         movdqa @t[0], @x[3]
-        pxor    @t[2], @x[6]
-         movdqa @t[6], @x[2]
-         movdqa @t[1], @x[7]
-         movdqa @x[6], @x[4]
-         movdqa @t[3], @x[6]
-___
-}
-sub InvMixColumns_orig {
-my @x=@_[0..7];
-my @t=@_[8..15];
-$code.=<<___;
-        # multiplication by 0x0e
-        pshufd  \$0x93, @x[7], @t[7]
-        movdqa  @x[2], @t[2]
-        pxor    @x[5], @x[7]            # 7 5
-        pxor    @x[5], @x[2]            # 2 5
-        pshufd  \$0x93, @x[0], @t[0]
-        movdqa  @x[5], @t[5]
-        pxor    @x[0], @x[5]            # 5 0           [1]
-        pxor    @x[1], @x[0]            # 0 1
-        pshufd  \$0x93, @x[1], @t[1]
-        pxor    @x[2], @x[1]            # 1 25
-        pxor    @x[6], @x[0]            # 01 6          [2]
-        pxor    @x[3], @x[1]            # 125 3         [4]
-        pshufd  \$0x93, @x[3], @t[3]
-        pxor    @x[0], @x[2]            # 25 016        [3]
-        pxor    @x[7], @x[3]            # 3 75
-        pxor    @x[6], @x[7]            # 75 6          [0]
-        pshufd  \$0x93, @x[6], @t[6]
-        movdqa  @x[4], @t[4]
-        pxor    @x[4], @x[6]            # 6 4
-        pxor    @x[3], @x[4]            # 4 375         [6]
-        pxor    @x[7], @x[3]            # 375 756=36
-        pxor    @t[5], @x[6]            # 64 5          [7]
-        pxor    @t[2], @x[3]            # 36 2
-        pxor    @t[4], @x[3]            # 362 4         [5]
-        pshufd  \$0x93, @t[5], @t[5]
-___
-                                        my @y = @x[7,5,0,2,1,3,4,6];
-$code.=<<___;
-        # multiplication by 0x0b
-        pxor    @y[0], @y[1]
-        pxor    @t[0], @y[0]
-        pxor    @t[1], @y[1]
-        pshufd  \$0x93, @t[2], @t[2]
-        pxor    @t[5], @y[0]
-        pxor    @t[6], @y[1]
-        pxor    @t[7], @y[0]
-        pshufd  \$0x93, @t[4], @t[4]
-        pxor    @t[6], @t[7]            # clobber t[7]
-        pxor    @y[0], @y[1]
-        pxor    @t[0], @y[3]
-        pshufd  \$0x93, @t[0], @t[0]
-        pxor    @t[1], @y[2]
-        pxor    @t[1], @y[4]
-        pxor    @t[2], @y[2]
-        pshufd  \$0x93, @t[1], @t[1]
-        pxor    @t[2], @y[3]
-        pxor    @t[2], @y[5]
-        pxor    @t[7], @y[2]
-        pshufd  \$0x93, @t[2], @t[2]
-        pxor    @t[3], @y[3]
-        pxor    @t[3], @y[6]
-        pxor    @t[3], @y[4]
-        pshufd  \$0x93, @t[3], @t[3]
-        pxor    @t[4], @y[7]
-        pxor    @t[4], @y[5]
-        pxor    @t[7], @y[7]
-        pxor    @t[5], @y[3]
-        pxor    @t[4], @y[4]
-        pxor    @t[5], @t[7]            # clobber t[7] even more
-        pxor    @t[7], @y[5]
-        pshufd  \$0x93, @t[4], @t[4]
-        pxor    @t[7], @y[6]
-        pxor    @t[7], @y[4]
-        pxor    @t[5], @t[7]
-        pshufd  \$0x93, @t[5], @t[5]
-        pxor    @t[6], @t[7]            # restore t[7]
-        # multiplication by 0x0d
-        pxor    @y[7], @y[4]
-        pxor    @t[4], @y[7]
-        pshufd  \$0x93, @t[6], @t[6]
-        pxor    @t[0], @y[2]
-        pxor    @t[5], @y[7]
-        pxor    @t[2], @y[2]
-        pshufd  \$0x93, @t[7], @t[7]
-        pxor    @y[1], @y[3]
-        pxor    @t[1], @y[1]
-        pxor    @t[0], @y[0]
-        pxor    @t[0], @y[3]
-        pxor    @t[5], @y[1]
-        pxor    @t[5], @y[0]
-        pxor    @t[7], @y[1]
-        pshufd  \$0x93, @t[0], @t[0]
-        pxor    @t[6], @y[0]
-        pxor    @y[1], @y[3]
-        pxor    @t[1], @y[4]
-        pshufd  \$0x93, @t[1], @t[1]
-        pxor    @t[7], @y[7]
-        pxor    @t[2], @y[4]
-        pxor    @t[2], @y[5]
-        pshufd  \$0x93, @t[2], @t[2]
-        pxor    @t[6], @y[2]
-        pxor    @t[3], @t[6]            # clobber t[6]
-        pxor    @y[7], @y[4]
-        pxor    @t[6], @y[3]
-        pxor    @t[6], @y[6]
-        pxor    @t[5], @y[5]
-        pxor    @t[4], @y[6]
-        pshufd  \$0x93, @t[4], @t[4]
-        pxor    @t[6], @y[5]
-        pxor    @t[7], @y[6]
-        pxor    @t[3], @t[6]            # restore t[6]
-        pshufd  \$0x93, @t[5], @t[5]
-        pshufd  \$0x93, @t[6], @t[6]
-        pshufd  \$0x93, @t[7], @t[7]
-        pshufd  \$0x93, @t[3], @t[3]
-        # multiplication by 0x09
-        pxor    @y[1], @y[4]
-        pxor    @y[1], @t[1]            # t[1]=y[1]
-        pxor    @t[5], @t[0]            # clobber t[0]
-        pxor    @t[5], @t[1]
-        pxor    @t[0], @y[3]
-        pxor    @y[0], @t[0]            # t[0]=y[0]
-        pxor    @t[6], @t[1]
-        pxor    @t[7], @t[6]            # clobber t[6]
-        pxor    @t[1], @y[4]
-        pxor    @t[4], @y[7]
-        pxor    @y[4], @t[4]            # t[4]=y[4]
-        pxor    @t[3], @y[6]
-        pxor    @y[3], @t[3]            # t[3]=y[3]
-        pxor    @t[2], @y[5]
-        pxor    @y[2], @t[2]            # t[2]=y[2]
-        pxor    @t[7], @t[3]
-        pxor    @y[5], @t[5]            # t[5]=y[5]
-        pxor    @t[6], @t[2]
-        pxor    @t[6], @t[5]
-        pxor    @y[6], @t[6]            # t[6]=y[6]
-        pxor    @y[7], @t[7]            # t[7]=y[7]
-        movdqa  @t[0],@XMM[0]
-        movdqa  @t[1],@XMM[1]
-        movdqa  @t[2],@XMM[2]
-        movdqa  @t[3],@XMM[3]
-        movdqa  @t[4],@XMM[4]
-        movdqa  @t[5],@XMM[5]
-        movdqa  @t[6],@XMM[6]
-        movdqa  @t[7],@XMM[7]
-___
-}
-sub InvMixColumns {
-my @x=@_[0..7];
-my @t=@_[8..15];
-# Thanks to Jussi Kivilinna for providing pointer to
-#
-# | 0e 0b 0d 09 |   | 02 03 01 01 |   | 05 00 04 00 |
-# | 09 0e 0b 0d | = | 01 02 03 01 | x | 00 05 00 04 |
-# | 0d 09 0e 0b |   | 01 01 02 03 |   | 04 00 05 00 |
-# | 0b 0d 09 0e |   | 03 01 01 02 |   | 00 04 00 05 |
-$code.=<<___;
-        # multiplication by 0x05-0x00-0x04-0x00
-        pshufd  \$0x4E, @x[0], @t[0]
-        pshufd  \$0x4E, @x[6], @t[6]
-        pxor    @x[0], @t[0]
-        pshufd  \$0x4E, @x[7], @t[7]
-        pxor    @x[6], @t[6]
-        pshufd  \$0x4E, @x[1], @t[1]
-        pxor    @x[7], @t[7]
-        pshufd  \$0x4E, @x[2], @t[2]
-        pxor    @x[1], @t[1]
-        pshufd  \$0x4E, @x[3], @t[3]
-        pxor    @x[2], @t[2]
-         pxor   @t[6], @x[0]
-         pxor   @t[6], @x[1]
-        pshufd  \$0x4E, @x[4], @t[4]
-        pxor    @x[3], @t[3]
-         pxor   @t[0], @x[2]
-         pxor   @t[1], @x[3]
-        pshufd  \$0x4E, @x[5], @t[5]
-        pxor    @x[4], @t[4]
-         pxor   @t[7], @x[1]
-         pxor   @t[2], @x[4]
-        pxor    @x[5], @t[5]
-         pxor   @t[7], @x[2]
-         pxor   @t[6], @x[3]
-         pxor   @t[6], @x[4]
-         pxor   @t[3], @x[5]
-         pxor   @t[4], @x[6]
-         pxor   @t[7], @x[4]
-         pxor   @t[7], @x[5]
-         pxor   @t[5], @x[7]
-___
-        &MixColumns     (@x,@t,1);      # flipped 2<->3 and 4<->6
-}
-sub aesenc {                            # not used
-my @b=@_[0..7];
-my @t=@_[8..15];
-$code.=<<___;
-        movdqa  0x30($const),@t[0]      # .LSR
-___
-        &ShiftRows      (@b,@t[0]);
-        &Sbox           (@b,@t);
-        &MixColumns     (@b[0,1,4,6,3,7,2,5],@t);
-}
-sub aesenclast {                        # not used
-my @b=@_[0..7];
-my @t=@_[8..15];
-$code.=<<___;
-        movdqa  0x40($const),@t[0]      # .LSRM0
-___
-        &ShiftRows      (@b,@t[0]);
-        &Sbox           (@b,@t);
-$code.=<<___
-        pxor    0x00($key),@b[0]
-        pxor    0x10($key),@b[1]
-        pxor    0x20($key),@b[4]
-        pxor    0x30($key),@b[6]
-        pxor    0x40($key),@b[3]
-        pxor    0x50($key),@b[7]
-        pxor    0x60($key),@b[2]
-        pxor    0x70($key),@b[5]
-___
-}
-sub swapmove {
-my ($a,$b,$n,$mask,$t)=@_;
-$code.=<<___;
-        movdqa  $b,$t
-        psrlq   \$$n,$b
-        pxor    $a,$b
-        pand    $mask,$b
-        pxor    $b,$a
-        psllq   \$$n,$b
-        pxor    $t,$b
-___
-}
-sub swapmove2x {
-my ($a0,$b0,$a1,$b1,$n,$mask,$t0,$t1)=@_;
-$code.=<<___;
-        movdqa  $b0,$t0
-        psrlq   \$$n,$b0
-         movdqa $b1,$t1
-         psrlq  \$$n,$b1
-        pxor    $a0,$b0
-         pxor   $a1,$b1
-        pand    $mask,$b0
-         pand   $mask,$b1
-        pxor    $b0,$a0
-        psllq   \$$n,$b0
-         pxor   $b1,$a1
-         psllq  \$$n,$b1
-        pxor    $t0,$b0
-         pxor   $t1,$b1
-___
-}
-sub bitslice {
-my @x=reverse(@_[0..7]);
-my ($t0,$t1,$t2,$t3)=@_[8..11];
-$code.=<<___;
-        movdqa  0x00($const),$t0        # .LBS0
-        movdqa  0x10($const),$t1        # .LBS1
-___
-        &swapmove2x(@x[0,1,2,3],1,$t0,$t2,$t3);
-        &swapmove2x(@x[4,5,6,7],1,$t0,$t2,$t3);
-$code.=<<___;
-        movdqa  0x20($const),$t0        # .LBS2
-___
-        &swapmove2x(@x[0,2,1,3],2,$t1,$t2,$t3);
-        &swapmove2x(@x[4,6,5,7],2,$t1,$t2,$t3);
-        &swapmove2x(@x[0,4,1,5],4,$t0,$t2,$t3);
-        &swapmove2x(@x[2,6,3,7],4,$t0,$t2,$t3);
-}
-$code.=<<___;
-.text
-.extern asm_AES_encrypt
-.extern asm_AES_decrypt
-.type   _bsaes_encrypt8,\@abi-omnipotent
-.align  64
-_bsaes_encrypt8:
-        _CET_ENDBR
-        lea     .LBS0(%rip), $const     # constants table
-        movdqa  ($key), @XMM[9]         # round 0 key
-        lea     0x10($key), $key
-        movdqa  0x50($const), @XMM[8]   # .LM0SR
-        pxor    @XMM[9], @XMM[0]        # xor with round0 key
-        pxor    @XMM[9], @XMM[1]
-         pshufb @XMM[8], @XMM[0]
-        pxor    @XMM[9], @XMM[2]
-         pshufb @XMM[8], @XMM[1]
-        pxor    @XMM[9], @XMM[3]
-         pshufb @XMM[8], @XMM[2]
-        pxor    @XMM[9], @XMM[4]
-         pshufb @XMM[8], @XMM[3]
-        pxor    @XMM[9], @XMM[5]
-         pshufb @XMM[8], @XMM[4]
-        pxor    @XMM[9], @XMM[6]
-         pshufb @XMM[8], @XMM[5]
-        pxor    @XMM[9], @XMM[7]
-         pshufb @XMM[8], @XMM[6]
-         pshufb @XMM[8], @XMM[7]
-_bsaes_encrypt8_bitslice:
-___
-        &bitslice       (@XMM[0..7, 8..11]);
-$code.=<<___;
-        dec     $rounds
-        jmp     .Lenc_sbox
-.align  16
-.Lenc_loop:
-___
-        &ShiftRows      (@XMM[0..7, 8]);
-$code.=".Lenc_sbox:\n";
-        &Sbox           (@XMM[0..7, 8..15]);
-$code.=<<___;
-        dec     $rounds
-        jl      .Lenc_done
-___
-        &MixColumns     (@XMM[0,1,4,6,3,7,2,5, 8..15]);
-$code.=<<___;
-        movdqa  0x30($const), @XMM[8]   # .LSR
-        jnz     .Lenc_loop
-        movdqa  0x40($const), @XMM[8]   # .LSRM0
-        jmp     .Lenc_loop
-.align  16
-.Lenc_done:
-___
-        # output in lsb > [t0, t1, t4, t6, t3, t7, t2, t5] < msb
-        &bitslice       (@XMM[0,1,4,6,3,7,2,5, 8..11]);
-$code.=<<___;
-        movdqa  ($key), @XMM[8]         # last round key
-        pxor    @XMM[8], @XMM[4]
-        pxor    @XMM[8], @XMM[6]
-        pxor    @XMM[8], @XMM[3]
-        pxor    @XMM[8], @XMM[7]
-        pxor    @XMM[8], @XMM[2]
-        pxor    @XMM[8], @XMM[5]
-        pxor    @XMM[8], @XMM[0]
-        pxor    @XMM[8], @XMM[1]
-        ret
-.size   _bsaes_encrypt8,.-_bsaes_encrypt8
-.type   _bsaes_decrypt8,\@abi-omnipotent
-.align  64
-_bsaes_decrypt8:
-        _CET_ENDBR
-        lea     .LBS0(%rip), $const     # constants table
-        movdqa  ($key), @XMM[9]         # round 0 key
-        lea     0x10($key), $key
-        movdqa  -0x30($const), @XMM[8]  # .LM0ISR
-        pxor    @XMM[9], @XMM[0]        # xor with round0 key
-        pxor    @XMM[9], @XMM[1]
-         pshufb @XMM[8], @XMM[0]
-        pxor    @XMM[9], @XMM[2]
-         pshufb @XMM[8], @XMM[1]
-        pxor    @XMM[9], @XMM[3]
-         pshufb @XMM[8], @XMM[2]
-        pxor    @XMM[9], @XMM[4]
-         pshufb @XMM[8], @XMM[3]
-        pxor    @XMM[9], @XMM[5]
-         pshufb @XMM[8], @XMM[4]
-        pxor    @XMM[9], @XMM[6]
-         pshufb @XMM[8], @XMM[5]
-        pxor    @XMM[9], @XMM[7]
-         pshufb @XMM[8], @XMM[6]
-         pshufb @XMM[8], @XMM[7]
-___
-        &bitslice       (@XMM[0..7, 8..11]);
-$code.=<<___;
-        dec     $rounds
-        jmp     .Ldec_sbox
-.align  16
-.Ldec_loop:
-___
-        &ShiftRows      (@XMM[0..7, 8]);
-$code.=".Ldec_sbox:\n";
-        &InvSbox        (@XMM[0..7, 8..15]);
-$code.=<<___;
-        dec     $rounds
-        jl      .Ldec_done
-___
-        &InvMixColumns  (@XMM[0,1,6,4,2,7,3,5, 8..15]);
-$code.=<<___;
-        movdqa  -0x10($const), @XMM[8]  # .LISR
-        jnz     .Ldec_loop
-        movdqa  -0x20($const), @XMM[8]  # .LISRM0
-        jmp     .Ldec_loop
-.align  16
-.Ldec_done:
-___
-        &bitslice       (@XMM[0,1,6,4,2,7,3,5, 8..11]);
-$code.=<<___;
-        movdqa  ($key), @XMM[8]         # last round key
-        pxor    @XMM[8], @XMM[6]
-        pxor    @XMM[8], @XMM[4]
-        pxor    @XMM[8], @XMM[2]
-        pxor    @XMM[8], @XMM[7]
-        pxor    @XMM[8], @XMM[3]
-        pxor    @XMM[8], @XMM[5]
-        pxor    @XMM[8], @XMM[0]
-        pxor    @XMM[8], @XMM[1]
-        ret
-.size   _bsaes_decrypt8,.-_bsaes_decrypt8
-___
-}
-{
-my ($out,$inp,$rounds,$const)=("%rax","%rcx","%r10d","%r11");
-sub bitslice_key {
-my @x=reverse(@_[0..7]);
-my ($bs0,$bs1,$bs2,$t2,$t3)=@_[8..12];
-        &swapmove       (@x[0,1],1,$bs0,$t2,$t3);
-$code.=<<___;
-        #&swapmove(@x[2,3],1,$t0,$t2,$t3);
-        movdqa  @x[0], @x[2]
-        movdqa  @x[1], @x[3]
-___
-        #&swapmove2x(@x[4,5,6,7],1,$t0,$t2,$t3);
-        &swapmove2x     (@x[0,2,1,3],2,$bs1,$t2,$t3);
-$code.=<<___;
-        #&swapmove2x(@x[4,6,5,7],2,$t1,$t2,$t3);
-        movdqa  @x[0], @x[4]
-        movdqa  @x[2], @x[6]
-        movdqa  @x[1], @x[5]
-        movdqa  @x[3], @x[7]
-___
-        &swapmove2x     (@x[0,4,1,5],4,$bs2,$t2,$t3);
-        &swapmove2x     (@x[2,6,3,7],4,$bs2,$t2,$t3);
-}
-$code.=<<___;
-.type   _bsaes_key_convert,\@abi-omnipotent
-.align  16
-_bsaes_key_convert:
-        _CET_ENDBR
-        lea     .Lmasks(%rip), $const
-        movdqu  ($inp), %xmm7           # load round 0 key
-        lea     0x10($inp), $inp
-        movdqa  0x00($const), %xmm0     # 0x01...
-        movdqa  0x10($const), %xmm1     # 0x02...
-        movdqa  0x20($const), %xmm2     # 0x04...
-        movdqa  0x30($const), %xmm3     # 0x08...
-        movdqa  0x40($const), %xmm4     # .LM0
-        pcmpeqd %xmm5, %xmm5            # .LNOT
-        movdqu  ($inp), %xmm6           # load round 1 key
-        movdqa  %xmm7, ($out)           # save round 0 key
-        lea     0x10($out), $out
-        dec     $rounds
-        jmp     .Lkey_loop
-.align  16
-.Lkey_loop:
-        pshufb  %xmm4, %xmm6            # .LM0
-        movdqa  %xmm0,  %xmm8
-        movdqa  %xmm1,  %xmm9
-        pand    %xmm6,  %xmm8
-        pand    %xmm6,  %xmm9
-        movdqa  %xmm2,  %xmm10
-        pcmpeqb %xmm0,  %xmm8
-        psllq   \$4,    %xmm0           # 0x10...
-        movdqa  %xmm3,  %xmm11
-        pcmpeqb %xmm1,  %xmm9
-        psllq   \$4,    %xmm1           # 0x20...
-        pand    %xmm6,  %xmm10
-        pand    %xmm6,  %xmm11
-        movdqa  %xmm0,  %xmm12
-        pcmpeqb %xmm2,  %xmm10
-        psllq   \$4,    %xmm2           # 0x40...
-        movdqa  %xmm1,  %xmm13
-        pcmpeqb %xmm3,  %xmm11
-        psllq   \$4,    %xmm3           # 0x80...
-        movdqa  %xmm2,  %xmm14
-        movdqa  %xmm3,  %xmm15
-         pxor   %xmm5,  %xmm8           # "pnot"
-         pxor   %xmm5,  %xmm9
-        pand    %xmm6,  %xmm12
-        pand    %xmm6,  %xmm13
-         movdqa %xmm8, 0x00($out)       # write bit-sliced round key
-        pcmpeqb %xmm0,  %xmm12
-        psrlq   \$4,    %xmm0           # 0x01...
-         movdqa %xmm9, 0x10($out)
-        pcmpeqb %xmm1,  %xmm13
-        psrlq   \$4,    %xmm1           # 0x02...
-         lea    0x10($inp), $inp
-        pand    %xmm6,  %xmm14
-        pand    %xmm6,  %xmm15
-         movdqa %xmm10, 0x20($out)
-        pcmpeqb %xmm2,  %xmm14
-        psrlq   \$4,    %xmm2           # 0x04...
-         movdqa %xmm11, 0x30($out)
-        pcmpeqb %xmm3,  %xmm15
-        psrlq   \$4,    %xmm3           # 0x08...
-         movdqu ($inp), %xmm6           # load next round key
-        pxor    %xmm5, %xmm13           # "pnot"
-        pxor    %xmm5, %xmm14
-        movdqa  %xmm12, 0x40($out)
-        movdqa  %xmm13, 0x50($out)
-        movdqa  %xmm14, 0x60($out)
-        movdqa  %xmm15, 0x70($out)
-        lea     0x80($out),$out
-        dec     $rounds
-        jnz     .Lkey_loop
-        movdqa  0x50($const), %xmm7     # .L63
-        #movdqa %xmm6, ($out)           # don't save last round key
-        ret
-.size   _bsaes_key_convert,.-_bsaes_key_convert
-___
-}
-if (0 && !$win64) {     # following four functions are unsupported interface
-                        # used for benchmarking...
-$code.=<<___;
-.globl  bsaes_enc_key_convert
-.type   bsaes_enc_key_convert,\@function,2
-.align  16
-bsaes_enc_key_convert:
-        _CET_ENDBR
-        mov     240($inp),%r10d         # pass rounds
-        mov     $inp,%rcx               # pass key
-        mov     $out,%rax               # pass key schedule
-        call    _bsaes_key_convert
-        pxor    %xmm6,%xmm7             # fix up last round key
-        movdqa  %xmm7,(%rax)            # save last round key
-        ret
-.size   bsaes_enc_key_convert,.-bsaes_enc_key_convert
-.globl  bsaes_encrypt_128
-.type   bsaes_encrypt_128,\@function,4
-.align  16
-bsaes_encrypt_128:
-.Lenc128_loop:
-        _CET_ENDBR
-        movdqu  0x00($inp), @XMM[0]     # load input
-        movdqu  0x10($inp), @XMM[1]
-        movdqu  0x20($inp), @XMM[2]
-        movdqu  0x30($inp), @XMM[3]
-        movdqu  0x40($inp), @XMM[4]
-        movdqu  0x50($inp), @XMM[5]
-        movdqu  0x60($inp), @XMM[6]
-        movdqu  0x70($inp), @XMM[7]
-        mov     $key, %rax              # pass the $key
-        lea     0x80($inp), $inp
-        mov     \$10,%r10d
-        call    _bsaes_encrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[4], 0x20($out)
-        movdqu  @XMM[6], 0x30($out)
-        movdqu  @XMM[3], 0x40($out)
-        movdqu  @XMM[7], 0x50($out)
-        movdqu  @XMM[2], 0x60($out)
-        movdqu  @XMM[5], 0x70($out)
-        lea     0x80($out), $out
-        sub     \$0x80,$len
-        ja      .Lenc128_loop
-        ret
-.size   bsaes_encrypt_128,.-bsaes_encrypt_128
-.globl  bsaes_dec_key_convert
-.type   bsaes_dec_key_convert,\@function,2
-.align  16
-bsaes_dec_key_convert:
-        _CET_ENDBR
-        mov     240($inp),%r10d         # pass rounds
-        mov     $inp,%rcx               # pass key
-        mov     $out,%rax               # pass key schedule
-        call    _bsaes_key_convert
-        pxor    ($out),%xmm7            # fix up round 0 key
-        movdqa  %xmm6,(%rax)            # save last round key
-        movdqa  %xmm7,($out)
-        ret
-.size   bsaes_dec_key_convert,.-bsaes_dec_key_convert
-.globl  bsaes_decrypt_128
-.type   bsaes_decrypt_128,\@function,4
-.align  16
-bsaes_decrypt_128:
-        _CET_ENDBR
-.Ldec128_loop:
-        movdqu  0x00($inp), @XMM[0]     # load input
-        movdqu  0x10($inp), @XMM[1]
-        movdqu  0x20($inp), @XMM[2]
-        movdqu  0x30($inp), @XMM[3]
-        movdqu  0x40($inp), @XMM[4]
-        movdqu  0x50($inp), @XMM[5]
-        movdqu  0x60($inp), @XMM[6]
-        movdqu  0x70($inp), @XMM[7]
-        mov     $key, %rax              # pass the $key
-        lea     0x80($inp), $inp
-        mov     \$10,%r10d
-        call    _bsaes_decrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[6], 0x20($out)
-        movdqu  @XMM[4], 0x30($out)
-        movdqu  @XMM[2], 0x40($out)
-        movdqu  @XMM[7], 0x50($out)
-        movdqu  @XMM[3], 0x60($out)
-        movdqu  @XMM[5], 0x70($out)
-        lea     0x80($out), $out
-        sub     \$0x80,$len
-        ja      .Ldec128_loop
-        ret
-.size   bsaes_decrypt_128,.-bsaes_decrypt_128
-___
-}
-{
-######################################################################
-#
-# OpenSSL interface
-#
-my ($arg1,$arg2,$arg3,$arg4,$arg5,$arg6)=$win64 ? ("%rcx","%rdx","%r8","%r9","%r10","%r11d")
-                                                : ("%rdi","%rsi","%rdx","%rcx","%r8","%r9d");
-my ($inp,$out,$len,$key)=("%r12","%r13","%r14","%r15");
-if ($ecb) {
-$code.=<<___;
-.globl  bsaes_ecb_encrypt_blocks
-.type   bsaes_ecb_encrypt_blocks,\@abi-omnipotent
-.align  16
-bsaes_ecb_encrypt_blocks:
-        _CET_ENDBR
-        mov     %rsp, %rax
-.Lecb_enc_prologue:
-        push    %rbp
-        push    %rbx
-        push    %r12
-        push    %r13
-        push    %r14
-        push    %r15
-        lea     -0x48(%rsp),%rsp
-___
-$code.=<<___ if ($win64);
-        lea     -0xa0(%rsp), %rsp
-        movaps  %xmm6, 0x40(%rsp)
-        movaps  %xmm7, 0x50(%rsp)
-        movaps  %xmm8, 0x60(%rsp)
-        movaps  %xmm9, 0x70(%rsp)
-        movaps  %xmm10, 0x80(%rsp)
-        movaps  %xmm11, 0x90(%rsp)
-        movaps  %xmm12, 0xa0(%rsp)
-        movaps  %xmm13, 0xb0(%rsp)
-        movaps  %xmm14, 0xc0(%rsp)
-        movaps  %xmm15, 0xd0(%rsp)
-.Lecb_enc_body:
-___
-$code.=<<___;
-        mov     %rsp,%rbp               # backup %rsp
-        mov     240($arg4),%eax         # rounds
-        mov     $arg1,$inp              # backup arguments
-        mov     $arg2,$out
-        mov     $arg3,$len
-        mov     $arg4,$key
-        cmp     \$8,$arg3
-        jb      .Lecb_enc_short
-        mov     %eax,%ebx               # backup rounds
-        shl     \$7,%rax                # 128 bytes per inner round key
-        sub     \$`128-32`,%rax         # size of bit-sliced key schedule
-        sub     %rax,%rsp
-        mov     %rsp,%rax               # pass key schedule
-        mov     $key,%rcx               # pass key
-        mov     %ebx,%r10d              # pass rounds
-        call    _bsaes_key_convert
-        pxor    %xmm6,%xmm7             # fix up last round key
-        movdqa  %xmm7,(%rax)            # save last round key
-        sub     \$8,$len
-.Lecb_enc_loop:
-        movdqu  0x00($inp), @XMM[0]     # load input
-        movdqu  0x10($inp), @XMM[1]
-        movdqu  0x20($inp), @XMM[2]
-        movdqu  0x30($inp), @XMM[3]
-        movdqu  0x40($inp), @XMM[4]
-        movdqu  0x50($inp), @XMM[5]
-        mov     %rsp, %rax              # pass key schedule
-        movdqu  0x60($inp), @XMM[6]
-        mov     %ebx,%r10d              # pass rounds
-        movdqu  0x70($inp), @XMM[7]
-        lea     0x80($inp), $inp
-        call    _bsaes_encrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[4], 0x20($out)
-        movdqu  @XMM[6], 0x30($out)
-        movdqu  @XMM[3], 0x40($out)
-        movdqu  @XMM[7], 0x50($out)
-        movdqu  @XMM[2], 0x60($out)
-        movdqu  @XMM[5], 0x70($out)
-        lea     0x80($out), $out
-        sub     \$8,$len
-        jnc     .Lecb_enc_loop
-        add     \$8,$len
-        jz      .Lecb_enc_done
-        movdqu  0x00($inp), @XMM[0]     # load input
-        mov     %rsp, %rax              # pass key schedule
-        mov     %ebx,%r10d              # pass rounds
-        cmp     \$2,$len
-        jb      .Lecb_enc_one
-        movdqu  0x10($inp), @XMM[1]
-        je      .Lecb_enc_two
-        movdqu  0x20($inp), @XMM[2]
-        cmp     \$4,$len
-        jb      .Lecb_enc_three
-        movdqu  0x30($inp), @XMM[3]
-        je      .Lecb_enc_four
-        movdqu  0x40($inp), @XMM[4]
-        cmp     \$6,$len
-        jb      .Lecb_enc_five
-        movdqu  0x50($inp), @XMM[5]
-        je      .Lecb_enc_six
-        movdqu  0x60($inp), @XMM[6]
-        call    _bsaes_encrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[4], 0x20($out)
-        movdqu  @XMM[6], 0x30($out)
-        movdqu  @XMM[3], 0x40($out)
-        movdqu  @XMM[7], 0x50($out)
-        movdqu  @XMM[2], 0x60($out)
-        jmp     .Lecb_enc_done
-.align  16
-.Lecb_enc_six:
-        call    _bsaes_encrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[4], 0x20($out)
-        movdqu  @XMM[6], 0x30($out)
-        movdqu  @XMM[3], 0x40($out)
-        movdqu  @XMM[7], 0x50($out)
-        jmp     .Lecb_enc_done
-.align  16
-.Lecb_enc_five:
-        call    _bsaes_encrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[4], 0x20($out)
-        movdqu  @XMM[6], 0x30($out)
-        movdqu  @XMM[3], 0x40($out)
-        jmp     .Lecb_enc_done
-.align  16
-.Lecb_enc_four:
-        call    _bsaes_encrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[4], 0x20($out)
-        movdqu  @XMM[6], 0x30($out)
-        jmp     .Lecb_enc_done
-.align  16
-.Lecb_enc_three:
-        call    _bsaes_encrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[4], 0x20($out)
-        jmp     .Lecb_enc_done
-.align  16
-.Lecb_enc_two:
-        call    _bsaes_encrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        jmp     .Lecb_enc_done
-.align  16
-.Lecb_enc_one:
-        call    _bsaes_encrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        jmp     .Lecb_enc_done
-.align  16
-.Lecb_enc_short:
-        lea     ($inp), $arg1
-        lea     ($out), $arg2
-        lea     ($key), $arg3
-        call    asm_AES_encrypt
-        lea     16($inp), $inp
-        lea     16($out), $out
-        dec     $len
-        jnz     .Lecb_enc_short
-.Lecb_enc_done:
-        lea     (%rsp),%rax
-        pxor    %xmm0, %xmm0
-.Lecb_enc_bzero:                        # wipe key schedule [if any]
-        movdqa  %xmm0, 0x00(%rax)
-        movdqa  %xmm0, 0x10(%rax)
-        lea     0x20(%rax), %rax
-        cmp     %rax, %rbp
-        jb      .Lecb_enc_bzero
-        lea     (%rbp),%rsp             # restore %rsp
-___
-$code.=<<___ if ($win64);
-        movaps  0x40(%rbp), %xmm6
-        movaps  0x50(%rbp), %xmm7
-        movaps  0x60(%rbp), %xmm8
-        movaps  0x70(%rbp), %xmm9
-        movaps  0x80(%rbp), %xmm10
-        movaps  0x90(%rbp), %xmm11
-        movaps  0xa0(%rbp), %xmm12
-        movaps  0xb0(%rbp), %xmm13
-        movaps  0xc0(%rbp), %xmm14
-        movaps  0xd0(%rbp), %xmm15
-        lea     0xa0(%rbp), %rsp
-___
-$code.=<<___;
-        mov     0x48(%rsp), %r15
-        mov     0x50(%rsp), %r14
-        mov     0x58(%rsp), %r13
-        mov     0x60(%rsp), %r12
-        mov     0x68(%rsp), %rbx
-        mov     0x70(%rsp), %rax
-        lea     0x78(%rsp), %rsp
-        mov     %rax, %rbp
-.Lecb_enc_epilogue:
-        ret
-.size   bsaes_ecb_encrypt_blocks,.-bsaes_ecb_encrypt_blocks
-.globl  bsaes_ecb_decrypt_blocks
-.type   bsaes_ecb_decrypt_blocks,\@abi-omnipotent
-.align  16
-bsaes_ecb_decrypt_blocks:
-        _CET_ENDBR
-        mov     %rsp, %rax
-.Lecb_dec_prologue:
-        push    %rbp
-        push    %rbx
-        push    %r12
-        push    %r13
-        push    %r14
-        push    %r15
-        lea     -0x48(%rsp),%rsp
-___
-$code.=<<___ if ($win64);
-        lea     -0xa0(%rsp), %rsp
-        movaps  %xmm6, 0x40(%rsp)
-        movaps  %xmm7, 0x50(%rsp)
-        movaps  %xmm8, 0x60(%rsp)
-        movaps  %xmm9, 0x70(%rsp)
-        movaps  %xmm10, 0x80(%rsp)
-        movaps  %xmm11, 0x90(%rsp)
-        movaps  %xmm12, 0xa0(%rsp)
-        movaps  %xmm13, 0xb0(%rsp)
-        movaps  %xmm14, 0xc0(%rsp)
-        movaps  %xmm15, 0xd0(%rsp)
-.Lecb_dec_body:
-___
-$code.=<<___;
-        mov     %rsp,%rbp               # backup %rsp
-        mov     240($arg4),%eax         # rounds
-        mov     $arg1,$inp              # backup arguments
-        mov     $arg2,$out
-        mov     $arg3,$len
-        mov     $arg4,$key
-        cmp     \$8,$arg3
-        jb      .Lecb_dec_short
-        mov     %eax,%ebx               # backup rounds
-        shl     \$7,%rax                # 128 bytes per inner round key
-        sub     \$`128-32`,%rax         # size of bit-sliced key schedule
-        sub     %rax,%rsp
-        mov     %rsp,%rax               # pass key schedule
-        mov     $key,%rcx               # pass key
-        mov     %ebx,%r10d              # pass rounds
-        call    _bsaes_key_convert
-        pxor    (%rsp),%xmm7            # fix up 0 round key
-        movdqa  %xmm6,(%rax)            # save last round key
-        movdqa  %xmm7,(%rsp)
-        sub     \$8,$len
-.Lecb_dec_loop:
-        movdqu  0x00($inp), @XMM[0]     # load input
-        movdqu  0x10($inp), @XMM[1]
-        movdqu  0x20($inp), @XMM[2]
-        movdqu  0x30($inp), @XMM[3]
-        movdqu  0x40($inp), @XMM[4]
-        movdqu  0x50($inp), @XMM[5]
-        mov     %rsp, %rax              # pass key schedule
-        movdqu  0x60($inp), @XMM[6]
-        mov     %ebx,%r10d              # pass rounds
-        movdqu  0x70($inp), @XMM[7]
-        lea     0x80($inp), $inp
-        call    _bsaes_decrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[6], 0x20($out)
-        movdqu  @XMM[4], 0x30($out)
-        movdqu  @XMM[2], 0x40($out)
-        movdqu  @XMM[7], 0x50($out)
-        movdqu  @XMM[3], 0x60($out)
-        movdqu  @XMM[5], 0x70($out)
-        lea     0x80($out), $out
-        sub     \$8,$len
-        jnc     .Lecb_dec_loop
-        add     \$8,$len
-        jz      .Lecb_dec_done
-        movdqu  0x00($inp), @XMM[0]     # load input
-        mov     %rsp, %rax              # pass key schedule
-        mov     %ebx,%r10d              # pass rounds
-        cmp     \$2,$len
-        jb      .Lecb_dec_one
-        movdqu  0x10($inp), @XMM[1]
-        je      .Lecb_dec_two
-        movdqu  0x20($inp), @XMM[2]
-        cmp     \$4,$len
-        jb      .Lecb_dec_three
-        movdqu  0x30($inp), @XMM[3]
-        je      .Lecb_dec_four
-        movdqu  0x40($inp), @XMM[4]
-        cmp     \$6,$len
-        jb      .Lecb_dec_five
-        movdqu  0x50($inp), @XMM[5]
-        je      .Lecb_dec_six
-        movdqu  0x60($inp), @XMM[6]
-        call    _bsaes_decrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[6], 0x20($out)
-        movdqu  @XMM[4], 0x30($out)
-        movdqu  @XMM[2], 0x40($out)
-        movdqu  @XMM[7], 0x50($out)
-        movdqu  @XMM[3], 0x60($out)
-        jmp     .Lecb_dec_done
-.align  16
-.Lecb_dec_six:
-        call    _bsaes_decrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[6], 0x20($out)
-        movdqu  @XMM[4], 0x30($out)
-        movdqu  @XMM[2], 0x40($out)
-        movdqu  @XMM[7], 0x50($out)
-        jmp     .Lecb_dec_done
-.align  16
-.Lecb_dec_five:
-        call    _bsaes_decrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[6], 0x20($out)
-        movdqu  @XMM[4], 0x30($out)
-        movdqu  @XMM[2], 0x40($out)
-        jmp     .Lecb_dec_done
-.align  16
-.Lecb_dec_four:
-        call    _bsaes_decrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[6], 0x20($out)
-        movdqu  @XMM[4], 0x30($out)
-        jmp     .Lecb_dec_done
-.align  16
-.Lecb_dec_three:
-        call    _bsaes_decrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[6], 0x20($out)
-        jmp     .Lecb_dec_done
-.align  16
-.Lecb_dec_two:
-        call    _bsaes_decrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        jmp     .Lecb_dec_done
-.align  16
-.Lecb_dec_one:
-        call    _bsaes_decrypt8
-        movdqu  @XMM[0], 0x00($out)     # write output
-        jmp     .Lecb_dec_done
-.align  16
-.Lecb_dec_short:
-        lea     ($inp), $arg1
-        lea     ($out), $arg2
-        lea     ($key), $arg3
-        call    asm_AES_decrypt
-        lea     16($inp), $inp
-        lea     16($out), $out
-        dec     $len
-        jnz     .Lecb_dec_short
-.Lecb_dec_done:
-        lea     (%rsp),%rax
-        pxor    %xmm0, %xmm0
-.Lecb_dec_bzero:                        # wipe key schedule [if any]
-        movdqa  %xmm0, 0x00(%rax)
-        movdqa  %xmm0, 0x10(%rax)
-        lea     0x20(%rax), %rax
-        cmp     %rax, %rbp
-        jb      .Lecb_dec_bzero
-        lea     (%rbp),%rsp             # restore %rsp
-___
-$code.=<<___ if ($win64);
-        movaps  0x40(%rbp), %xmm6
-        movaps  0x50(%rbp), %xmm7
-        movaps  0x60(%rbp), %xmm8
-        movaps  0x70(%rbp), %xmm9
-        movaps  0x80(%rbp), %xmm10
-        movaps  0x90(%rbp), %xmm11
-        movaps  0xa0(%rbp), %xmm12
-        movaps  0xb0(%rbp), %xmm13
-        movaps  0xc0(%rbp), %xmm14
-        movaps  0xd0(%rbp), %xmm15
-        lea     0xa0(%rbp), %rsp
-___
-$code.=<<___;
-        mov     0x48(%rsp), %r15
-        mov     0x50(%rsp), %r14
-        mov     0x58(%rsp), %r13
-        mov     0x60(%rsp), %r12
-        mov     0x68(%rsp), %rbx
-        mov     0x70(%rsp), %rax
-        lea     0x78(%rsp), %rsp
-        mov     %rax, %rbp
-.Lecb_dec_epilogue:
-        ret
-.size   bsaes_ecb_decrypt_blocks,.-bsaes_ecb_decrypt_blocks
-___
-}
-$code.=<<___;
-.extern asm_AES_cbc_encrypt
-.globl  bsaes_cbc_encrypt
-.type   bsaes_cbc_encrypt,\@abi-omnipotent
-.align  16
-bsaes_cbc_encrypt:
-        _CET_ENDBR
-___
-$code.=<<___ if ($win64);
-        mov     48(%rsp),$arg6          # pull direction flag
-___
-$code.=<<___;
-        cmp     \$0,$arg6
-        jne     asm_AES_cbc_encrypt
-        cmp     \$128,$arg3
-        jb      asm_AES_cbc_encrypt
-        mov     %rsp, %rax
-.Lcbc_dec_prologue:
-        push    %rbp
-        push    %rbx
-        push    %r12
-        push    %r13
-        push    %r14
-        push    %r15
-        lea     -0x48(%rsp), %rsp
-___
-$code.=<<___ if ($win64);
-        mov     0xa0(%rsp),$arg5        # pull ivp
-        lea     -0xa0(%rsp), %rsp
-        movaps  %xmm6, 0x40(%rsp)
-        movaps  %xmm7, 0x50(%rsp)
-        movaps  %xmm8, 0x60(%rsp)
-        movaps  %xmm9, 0x70(%rsp)
-        movaps  %xmm10, 0x80(%rsp)
-        movaps  %xmm11, 0x90(%rsp)
-        movaps  %xmm12, 0xa0(%rsp)
-        movaps  %xmm13, 0xb0(%rsp)
-        movaps  %xmm14, 0xc0(%rsp)
-        movaps  %xmm15, 0xd0(%rsp)
-.Lcbc_dec_body:
-___
-$code.=<<___;
-        mov     %rsp, %rbp              # backup %rsp
-        mov     240($arg4), %eax        # rounds
-        mov     $arg1, $inp             # backup arguments
-        mov     $arg2, $out
-        mov     $arg3, $len
-        mov     $arg4, $key
-        mov     $arg5, %rbx
-        shr     \$4, $len               # bytes to blocks
-        mov     %eax, %edx              # rounds
-        shl     \$7, %rax               # 128 bytes per inner round key
-        sub     \$`128-32`, %rax        # size of bit-sliced key schedule
-        sub     %rax, %rsp
-        mov     %rsp, %rax              # pass key schedule
-        mov     $key, %rcx              # pass key
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_key_convert
-        pxor    (%rsp),%xmm7            # fix up 0 round key
-        movdqa  %xmm6,(%rax)            # save last round key
-        movdqa  %xmm7,(%rsp)
-        movdqu  (%rbx), @XMM[15]        # load IV
-        sub     \$8,$len
-.Lcbc_dec_loop:
-        movdqu  0x00($inp), @XMM[0]     # load input
-        movdqu  0x10($inp), @XMM[1]
-        movdqu  0x20($inp), @XMM[2]
-        movdqu  0x30($inp), @XMM[3]
-        movdqu  0x40($inp), @XMM[4]
-        movdqu  0x50($inp), @XMM[5]
-        mov     %rsp, %rax              # pass key schedule
-        movdqu  0x60($inp), @XMM[6]
-        mov     %edx,%r10d              # pass rounds
-        movdqu  0x70($inp), @XMM[7]
-        movdqa  @XMM[15], 0x20(%rbp)    # put aside IV
-        call    _bsaes_decrypt8
-        pxor    0x20(%rbp), @XMM[0]     # ^= IV
-        movdqu  0x00($inp), @XMM[8]     # re-load input
-        movdqu  0x10($inp), @XMM[9]
-        pxor    @XMM[8], @XMM[1]
-        movdqu  0x20($inp), @XMM[10]
-        pxor    @XMM[9], @XMM[6]
-        movdqu  0x30($inp), @XMM[11]
-        pxor    @XMM[10], @XMM[4]
-        movdqu  0x40($inp), @XMM[12]
-        pxor    @XMM[11], @XMM[2]
-        movdqu  0x50($inp), @XMM[13]
-        pxor    @XMM[12], @XMM[7]
-        movdqu  0x60($inp), @XMM[14]
-        pxor    @XMM[13], @XMM[3]
-        movdqu  0x70($inp), @XMM[15]    # IV
-        pxor    @XMM[14], @XMM[5]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        lea     0x80($inp), $inp
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[6], 0x20($out)
-        movdqu  @XMM[4], 0x30($out)
-        movdqu  @XMM[2], 0x40($out)
-        movdqu  @XMM[7], 0x50($out)
-        movdqu  @XMM[3], 0x60($out)
-        movdqu  @XMM[5], 0x70($out)
-        lea     0x80($out), $out
-        sub     \$8,$len
-        jnc     .Lcbc_dec_loop
-        add     \$8,$len
-        jz      .Lcbc_dec_done
-        movdqu  0x00($inp), @XMM[0]     # load input
-        mov     %rsp, %rax              # pass key schedule
-        mov     %edx, %r10d             # pass rounds
-        cmp     \$2,$len
-        jb      .Lcbc_dec_one
-        movdqu  0x10($inp), @XMM[1]
-        je      .Lcbc_dec_two
-        movdqu  0x20($inp), @XMM[2]
-        cmp     \$4,$len
-        jb      .Lcbc_dec_three
-        movdqu  0x30($inp), @XMM[3]
-        je      .Lcbc_dec_four
-        movdqu  0x40($inp), @XMM[4]
-        cmp     \$6,$len
-        jb      .Lcbc_dec_five
-        movdqu  0x50($inp), @XMM[5]
-        je      .Lcbc_dec_six
-        movdqu  0x60($inp), @XMM[6]
-        movdqa  @XMM[15], 0x20(%rbp)    # put aside IV
-        call    _bsaes_decrypt8
-        pxor    0x20(%rbp), @XMM[0]     # ^= IV
-        movdqu  0x00($inp), @XMM[8]     # re-load input
-        movdqu  0x10($inp), @XMM[9]
-        pxor    @XMM[8], @XMM[1]
-        movdqu  0x20($inp), @XMM[10]
-        pxor    @XMM[9], @XMM[6]
-        movdqu  0x30($inp), @XMM[11]
-        pxor    @XMM[10], @XMM[4]
-        movdqu  0x40($inp), @XMM[12]
-        pxor    @XMM[11], @XMM[2]
-        movdqu  0x50($inp), @XMM[13]
-        pxor    @XMM[12], @XMM[7]
-        movdqu  0x60($inp), @XMM[15]    # IV
-        pxor    @XMM[13], @XMM[3]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[6], 0x20($out)
-        movdqu  @XMM[4], 0x30($out)
-        movdqu  @XMM[2], 0x40($out)
-        movdqu  @XMM[7], 0x50($out)
-        movdqu  @XMM[3], 0x60($out)
-        jmp     .Lcbc_dec_done
-.align  16
-.Lcbc_dec_six:
-        movdqa  @XMM[15], 0x20(%rbp)    # put aside IV
-        call    _bsaes_decrypt8
-        pxor    0x20(%rbp), @XMM[0]     # ^= IV
-        movdqu  0x00($inp), @XMM[8]     # re-load input
-        movdqu  0x10($inp), @XMM[9]
-        pxor    @XMM[8], @XMM[1]
-        movdqu  0x20($inp), @XMM[10]
-        pxor    @XMM[9], @XMM[6]
-        movdqu  0x30($inp), @XMM[11]
-        pxor    @XMM[10], @XMM[4]
-        movdqu  0x40($inp), @XMM[12]
-        pxor    @XMM[11], @XMM[2]
-        movdqu  0x50($inp), @XMM[15]    # IV
-        pxor    @XMM[12], @XMM[7]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[6], 0x20($out)
-        movdqu  @XMM[4], 0x30($out)
-        movdqu  @XMM[2], 0x40($out)
-        movdqu  @XMM[7], 0x50($out)
-        jmp     .Lcbc_dec_done
-.align  16
-.Lcbc_dec_five:
-        movdqa  @XMM[15], 0x20(%rbp)    # put aside IV
-        call    _bsaes_decrypt8
-        pxor    0x20(%rbp), @XMM[0]     # ^= IV
-        movdqu  0x00($inp), @XMM[8]     # re-load input
-        movdqu  0x10($inp), @XMM[9]
-        pxor    @XMM[8], @XMM[1]
-        movdqu  0x20($inp), @XMM[10]
-        pxor    @XMM[9], @XMM[6]
-        movdqu  0x30($inp), @XMM[11]
-        pxor    @XMM[10], @XMM[4]
-        movdqu  0x40($inp), @XMM[15]    # IV
-        pxor    @XMM[11], @XMM[2]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[6], 0x20($out)
-        movdqu  @XMM[4], 0x30($out)
-        movdqu  @XMM[2], 0x40($out)
-        jmp     .Lcbc_dec_done
-.align  16
-.Lcbc_dec_four:
-        movdqa  @XMM[15], 0x20(%rbp)    # put aside IV
-        call    _bsaes_decrypt8
-        pxor    0x20(%rbp), @XMM[0]     # ^= IV
-        movdqu  0x00($inp), @XMM[8]     # re-load input
-        movdqu  0x10($inp), @XMM[9]
-        pxor    @XMM[8], @XMM[1]
-        movdqu  0x20($inp), @XMM[10]
-        pxor    @XMM[9], @XMM[6]
-        movdqu  0x30($inp), @XMM[15]    # IV
-        pxor    @XMM[10], @XMM[4]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[6], 0x20($out)
-        movdqu  @XMM[4], 0x30($out)
-        jmp     .Lcbc_dec_done
-.align  16
-.Lcbc_dec_three:
-        movdqa  @XMM[15], 0x20(%rbp)    # put aside IV
-        call    _bsaes_decrypt8
-        pxor    0x20(%rbp), @XMM[0]     # ^= IV
-        movdqu  0x00($inp), @XMM[8]     # re-load input
-        movdqu  0x10($inp), @XMM[9]
-        pxor    @XMM[8], @XMM[1]
-        movdqu  0x20($inp), @XMM[15]    # IV
-        pxor    @XMM[9], @XMM[6]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[6], 0x20($out)
-        jmp     .Lcbc_dec_done
-.align  16
-.Lcbc_dec_two:
-        movdqa  @XMM[15], 0x20(%rbp)    # put aside IV
-        call    _bsaes_decrypt8
-        pxor    0x20(%rbp), @XMM[0]     # ^= IV
-        movdqu  0x00($inp), @XMM[8]     # re-load input
-        movdqu  0x10($inp), @XMM[15]    # IV
-        pxor    @XMM[8], @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        jmp     .Lcbc_dec_done
-.align  16
-.Lcbc_dec_one:
-        lea     ($inp), $arg1
-        lea     0x20(%rbp), $arg2       # buffer output
-        lea     ($key), $arg3
-        call    asm_AES_decrypt         # doesn't touch %xmm
-        pxor    0x20(%rbp), @XMM[15]    # ^= IV
-        movdqu  @XMM[15], ($out)        # write output
-        movdqa  @XMM[0], @XMM[15]       # IV
-.Lcbc_dec_done:
-        movdqu  @XMM[15], (%rbx)        # return IV
-        lea     (%rsp), %rax
-        pxor    %xmm0, %xmm0
-.Lcbc_dec_bzero:                        # wipe key schedule [if any]
-        movdqa  %xmm0, 0x00(%rax)
-        movdqa  %xmm0, 0x10(%rax)
-        lea     0x20(%rax), %rax
-        cmp     %rax, %rbp
-        ja      .Lcbc_dec_bzero
-        lea     (%rbp),%rsp             # restore %rsp
-___
-$code.=<<___ if ($win64);
-        movaps  0x40(%rbp), %xmm6
-        movaps  0x50(%rbp), %xmm7
-        movaps  0x60(%rbp), %xmm8
-        movaps  0x70(%rbp), %xmm9
-        movaps  0x80(%rbp), %xmm10
-        movaps  0x90(%rbp), %xmm11
-        movaps  0xa0(%rbp), %xmm12
-        movaps  0xb0(%rbp), %xmm13
-        movaps  0xc0(%rbp), %xmm14
-        movaps  0xd0(%rbp), %xmm15
-        lea     0xa0(%rbp), %rsp
-___
-$code.=<<___;
-        mov     0x48(%rsp), %r15
-        mov     0x50(%rsp), %r14
-        mov     0x58(%rsp), %r13
-        mov     0x60(%rsp), %r12
-        mov     0x68(%rsp), %rbx
-        mov     0x70(%rsp), %rax
-        lea     0x78(%rsp), %rsp
-        mov     %rax, %rbp
-.Lcbc_dec_epilogue:
-        ret
-.size   bsaes_cbc_encrypt,.-bsaes_cbc_encrypt
-.globl  bsaes_ctr32_encrypt_blocks
-.type   bsaes_ctr32_encrypt_blocks,\@abi-omnipotent
-.align  16
-bsaes_ctr32_encrypt_blocks:
-        _CET_ENDBR
-        mov     %rsp, %rax
-.Lctr_enc_prologue:
-        push    %rbp
-        push    %rbx
-        push    %r12
-        push    %r13
-        push    %r14
-        push    %r15
-        lea     -0x48(%rsp), %rsp
-___
-$code.=<<___ if ($win64);
-        mov     0xa0(%rsp),$arg5        # pull ivp
-        lea     -0xa0(%rsp), %rsp
-        movaps  %xmm6, 0x40(%rsp)
-        movaps  %xmm7, 0x50(%rsp)
-        movaps  %xmm8, 0x60(%rsp)
-        movaps  %xmm9, 0x70(%rsp)
-        movaps  %xmm10, 0x80(%rsp)
-        movaps  %xmm11, 0x90(%rsp)
-        movaps  %xmm12, 0xa0(%rsp)
-        movaps  %xmm13, 0xb0(%rsp)
-        movaps  %xmm14, 0xc0(%rsp)
-        movaps  %xmm15, 0xd0(%rsp)
-.Lctr_enc_body:
-___
-$code.=<<___;
-        mov     %rsp, %rbp              # backup %rsp
-        movdqu  ($arg5), %xmm0          # load counter
-        mov     240($arg4), %eax        # rounds
-        mov     $arg1, $inp             # backup arguments
-        mov     $arg2, $out
-        mov     $arg3, $len
-        mov     $arg4, $key
-        movdqa  %xmm0, 0x20(%rbp)       # copy counter
-        cmp     \$8, $arg3
-        jb      .Lctr_enc_short
-        mov     %eax, %ebx              # rounds
-        shl     \$7, %rax               # 128 bytes per inner round key
-        sub     \$`128-32`, %rax        # size of bit-sliced key schedule
-        sub     %rax, %rsp
-        mov     %rsp, %rax              # pass key schedule
-        mov     $key, %rcx              # pass key
-        mov     %ebx, %r10d             # pass rounds
-        call    _bsaes_key_convert
-        pxor    %xmm6,%xmm7             # fix up last round key
-        movdqa  %xmm7,(%rax)            # save last round key
-        movdqa  (%rsp), @XMM[9]         # load round0 key
-        lea     .LADD1(%rip), %r11
-        movdqa  0x20(%rbp), @XMM[0]     # counter copy
-        movdqa  -0x20(%r11), @XMM[8]    # .LSWPUP
-        pshufb  @XMM[8], @XMM[9]        # byte swap upper part
-        pshufb  @XMM[8], @XMM[0]
-        movdqa  @XMM[9], (%rsp)         # save adjusted round0 key
-        jmp     .Lctr_enc_loop
-.align  16
-.Lctr_enc_loop:
-        movdqa  @XMM[0], 0x20(%rbp)     # save counter
-        movdqa  @XMM[0], @XMM[1]        # prepare 8 counter values
-        movdqa  @XMM[0], @XMM[2]
-        paddd   0x00(%r11), @XMM[1]     # .LADD1
-        movdqa  @XMM[0], @XMM[3]
-        paddd   0x10(%r11), @XMM[2]     # .LADD2
-        movdqa  @XMM[0], @XMM[4]
-        paddd   0x20(%r11), @XMM[3]     # .LADD3
-        movdqa  @XMM[0], @XMM[5]
-        paddd   0x30(%r11), @XMM[4]     # .LADD4
-        movdqa  @XMM[0], @XMM[6]
-        paddd   0x40(%r11), @XMM[5]     # .LADD5
-        movdqa  @XMM[0], @XMM[7]
-        paddd   0x50(%r11), @XMM[6]     # .LADD6
-        paddd   0x60(%r11), @XMM[7]     # .LADD7
-        # Borrow prologue from _bsaes_encrypt8 to use the opportunity
-        # to flip byte order in 32-bit counter
-        movdqa  (%rsp), @XMM[9]         # round 0 key
-        lea     0x10(%rsp), %rax        # pass key schedule
-        movdqa  -0x10(%r11), @XMM[8]    # .LSWPUPM0SR
-        pxor    @XMM[9], @XMM[0]        # xor with round0 key
-        pxor    @XMM[9], @XMM[1]
-         pshufb @XMM[8], @XMM[0]
-        pxor    @XMM[9], @XMM[2]
-         pshufb @XMM[8], @XMM[1]
-        pxor    @XMM[9], @XMM[3]
-         pshufb @XMM[8], @XMM[2]
-        pxor    @XMM[9], @XMM[4]
-         pshufb @XMM[8], @XMM[3]
-        pxor    @XMM[9], @XMM[5]
-         pshufb @XMM[8], @XMM[4]
-        pxor    @XMM[9], @XMM[6]
-         pshufb @XMM[8], @XMM[5]
-        pxor    @XMM[9], @XMM[7]
-         pshufb @XMM[8], @XMM[6]
-        lea     .LBS0(%rip), %r11       # constants table
-         pshufb @XMM[8], @XMM[7]
-        mov     %ebx,%r10d              # pass rounds
-        call    _bsaes_encrypt8_bitslice
-        sub     \$8,$len
-        jc      .Lctr_enc_loop_done
-        movdqu  0x00($inp), @XMM[8]     # load input
-        movdqu  0x10($inp), @XMM[9]
-        movdqu  0x20($inp), @XMM[10]
-        movdqu  0x30($inp), @XMM[11]
-        movdqu  0x40($inp), @XMM[12]
-        movdqu  0x50($inp), @XMM[13]
-        movdqu  0x60($inp), @XMM[14]
-        movdqu  0x70($inp), @XMM[15]
-        lea     0x80($inp),$inp
-        pxor    @XMM[0], @XMM[8]
-        movdqa  0x20(%rbp), @XMM[0]     # load counter
-        pxor    @XMM[9], @XMM[1]
-        movdqu  @XMM[8], 0x00($out)     # write output
-        pxor    @XMM[10], @XMM[4]
-        movdqu  @XMM[1], 0x10($out)
-        pxor    @XMM[11], @XMM[6]
-        movdqu  @XMM[4], 0x20($out)
-        pxor    @XMM[12], @XMM[3]
-        movdqu  @XMM[6], 0x30($out)
-        pxor    @XMM[13], @XMM[7]
-        movdqu  @XMM[3], 0x40($out)
-        pxor    @XMM[14], @XMM[2]
-        movdqu  @XMM[7], 0x50($out)
-        pxor    @XMM[15], @XMM[5]
-        movdqu  @XMM[2], 0x60($out)
-        lea     .LADD1(%rip), %r11
-        movdqu  @XMM[5], 0x70($out)
-        lea     0x80($out), $out
-        paddd   0x70(%r11), @XMM[0]     # .LADD8
-        jnz     .Lctr_enc_loop
-        jmp     .Lctr_enc_done
-.align  16
-.Lctr_enc_loop_done:
-        add     \$8, $len
-        movdqu  0x00($inp), @XMM[8]     # load input
-        pxor    @XMM[8], @XMM[0]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        cmp     \$2,$len
-        jb      .Lctr_enc_done
-        movdqu  0x10($inp), @XMM[9]
-        pxor    @XMM[9], @XMM[1]
-        movdqu  @XMM[1], 0x10($out)
-        je      .Lctr_enc_done
-        movdqu  0x20($inp), @XMM[10]
-        pxor    @XMM[10], @XMM[4]
-        movdqu  @XMM[4], 0x20($out)
-        cmp     \$4,$len
-        jb      .Lctr_enc_done
-        movdqu  0x30($inp), @XMM[11]
-        pxor    @XMM[11], @XMM[6]
-        movdqu  @XMM[6], 0x30($out)
-        je      .Lctr_enc_done
-        movdqu  0x40($inp), @XMM[12]
-        pxor    @XMM[12], @XMM[3]
-        movdqu  @XMM[3], 0x40($out)
-        cmp     \$6,$len
-        jb      .Lctr_enc_done
-        movdqu  0x50($inp), @XMM[13]
-        pxor    @XMM[13], @XMM[7]
-        movdqu  @XMM[7], 0x50($out)
-        je      .Lctr_enc_done
-        movdqu  0x60($inp), @XMM[14]
-        pxor    @XMM[14], @XMM[2]
-        movdqu  @XMM[2], 0x60($out)
-        jmp     .Lctr_enc_done
-.align  16
-.Lctr_enc_short:
-        lea     0x20(%rbp), $arg1
-        lea     0x30(%rbp), $arg2
-        lea     ($key), $arg3
-        call    asm_AES_encrypt
-        movdqu  ($inp), @XMM[1]
-        lea     16($inp), $inp
-        mov     0x2c(%rbp), %eax        # load 32-bit counter
-        bswap   %eax
-        pxor    0x30(%rbp), @XMM[1]
-        inc     %eax                    # increment
-        movdqu  @XMM[1], ($out)
-        bswap   %eax
-        lea     16($out), $out
-        mov     %eax, 0x2c(%rsp)        # save 32-bit counter
-        dec     $len
-        jnz     .Lctr_enc_short
-.Lctr_enc_done:
-        lea     (%rsp), %rax
-        pxor    %xmm0, %xmm0
-.Lctr_enc_bzero:                        # wipe key schedule [if any]
-        movdqa  %xmm0, 0x00(%rax)
-        movdqa  %xmm0, 0x10(%rax)
-        lea     0x20(%rax), %rax
-        cmp     %rax, %rbp
-        ja      .Lctr_enc_bzero
-        lea     (%rbp),%rsp             # restore %rsp
-___
-$code.=<<___ if ($win64);
-        movaps  0x40(%rbp), %xmm6
-        movaps  0x50(%rbp), %xmm7
-        movaps  0x60(%rbp), %xmm8
-        movaps  0x70(%rbp), %xmm9
-        movaps  0x80(%rbp), %xmm10
-        movaps  0x90(%rbp), %xmm11
-        movaps  0xa0(%rbp), %xmm12
-        movaps  0xb0(%rbp), %xmm13
-        movaps  0xc0(%rbp), %xmm14
-        movaps  0xd0(%rbp), %xmm15
-        lea     0xa0(%rbp), %rsp
-___
-$code.=<<___;
-        mov     0x48(%rsp), %r15
-        mov     0x50(%rsp), %r14
-        mov     0x58(%rsp), %r13
-        mov     0x60(%rsp), %r12
-        mov     0x68(%rsp), %rbx
-        mov     0x70(%rsp), %rax
-        lea     0x78(%rsp), %rsp
-        mov     %rax, %rbp
-.Lctr_enc_epilogue:
-        ret
-.size   bsaes_ctr32_encrypt_blocks,.-bsaes_ctr32_encrypt_blocks
-___
-######################################################################
-# void bsaes_xts_[en|de]crypt(const char *inp,char *out,size_t len,
-#       const AES_KEY *key1, const AES_KEY *key2,
-#       const unsigned char iv[16]);
-#
-my ($twmask,$twres,$twtmp)=@XMM[13..15];
-$arg6=~s/d$//;
-$code.=<<___;
-.globl  bsaes_xts_encrypt
-.type   bsaes_xts_encrypt,\@abi-omnipotent
-.align  16
-bsaes_xts_encrypt:
-        _CET_ENDBR
-        mov     %rsp, %rax
-.Lxts_enc_prologue:
-        push    %rbp
-        push    %rbx
-        push    %r12
-        push    %r13
-        push    %r14
-        push    %r15
-        lea     -0x48(%rsp), %rsp
-___
-$code.=<<___ if ($win64);
-        mov     0xa0(%rsp),$arg5        # pull key2
-        mov     0xa8(%rsp),$arg6        # pull ivp
-        lea     -0xa0(%rsp), %rsp
-        movaps  %xmm6, 0x40(%rsp)
-        movaps  %xmm7, 0x50(%rsp)
-        movaps  %xmm8, 0x60(%rsp)
-        movaps  %xmm9, 0x70(%rsp)
-        movaps  %xmm10, 0x80(%rsp)
-        movaps  %xmm11, 0x90(%rsp)
-        movaps  %xmm12, 0xa0(%rsp)
-        movaps  %xmm13, 0xb0(%rsp)
-        movaps  %xmm14, 0xc0(%rsp)
-        movaps  %xmm15, 0xd0(%rsp)
-.Lxts_enc_body:
-___
-$code.=<<___;
-        mov     %rsp, %rbp              # backup %rsp
-        mov     $arg1, $inp             # backup arguments
-        mov     $arg2, $out
-        mov     $arg3, $len
-        mov     $arg4, $key
-        lea     ($arg6), $arg1
-        lea     0x20(%rbp), $arg2
-        lea     ($arg5), $arg3
-        call    asm_AES_encrypt         # generate initial tweak
-        mov     240($key), %eax         # rounds
-        mov     $len, %rbx              # backup $len
-        mov     %eax, %edx              # rounds
-        shl     \$7, %rax               # 128 bytes per inner round key
-        sub     \$`128-32`, %rax        # size of bit-sliced key schedule
-        sub     %rax, %rsp
-        mov     %rsp, %rax              # pass key schedule
-        mov     $key, %rcx              # pass key
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_key_convert
-        pxor    %xmm6, %xmm7            # fix up last round key
-        movdqa  %xmm7, (%rax)           # save last round key
-        and     \$-16, $len
-        sub     \$0x80, %rsp            # place for tweak[8]
-        movdqa  0x20(%rbp), @XMM[7]     # initial tweak
-        pxor    $twtmp, $twtmp
-        movdqa  .Lxts_magic(%rip), $twmask
-        pcmpgtd @XMM[7], $twtmp         # broadcast upper bits
-        sub     \$0x80, $len
-        jc      .Lxts_enc_short
-        jmp     .Lxts_enc_loop
-.align  16
-.Lxts_enc_loop:
-___
-    for ($i=0;$i<7;$i++) {
-    $code.=<<___;
-        pshufd  \$0x13, $twtmp, $twres
-        pxor    $twtmp, $twtmp
-        movdqa  @XMM[7], @XMM[$i]
-        movdqa  @XMM[7], `0x10*$i`(%rsp)# save tweak[$i]
-        paddq   @XMM[7], @XMM[7]        # psllq 1,$tweak
-        pand    $twmask, $twres         # isolate carry and residue
-        pcmpgtd @XMM[7], $twtmp         # broadcast upper bits
-        pxor    $twres, @XMM[7]
-___
-    $code.=<<___ if ($i>=1);
-        movdqu  `0x10*($i-1)`($inp), @XMM[8+$i-1]
-___
-    $code.=<<___ if ($i>=2);
-        pxor    @XMM[8+$i-2], @XMM[$i-2]# input[] ^ tweak[]
-___
-    }
-$code.=<<___;
-        movdqu  0x60($inp), @XMM[8+6]
-        pxor    @XMM[8+5], @XMM[5]
-        movdqu  0x70($inp), @XMM[8+7]
-        lea     0x80($inp), $inp
-        movdqa  @XMM[7], 0x70(%rsp)
-        pxor    @XMM[8+6], @XMM[6]
-        lea     0x80(%rsp), %rax        # pass key schedule
-        pxor    @XMM[8+7], @XMM[7]
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_encrypt8
-        pxor    0x00(%rsp), @XMM[0]     # ^= tweak[]
-        pxor    0x10(%rsp), @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        pxor    0x20(%rsp), @XMM[4]
-        movdqu  @XMM[1], 0x10($out)
-        pxor    0x30(%rsp), @XMM[6]
-        movdqu  @XMM[4], 0x20($out)
-        pxor    0x40(%rsp), @XMM[3]
-        movdqu  @XMM[6], 0x30($out)
-        pxor    0x50(%rsp), @XMM[7]
-        movdqu  @XMM[3], 0x40($out)
-        pxor    0x60(%rsp), @XMM[2]
-        movdqu  @XMM[7], 0x50($out)
-        pxor    0x70(%rsp), @XMM[5]
-        movdqu  @XMM[2], 0x60($out)
-        movdqu  @XMM[5], 0x70($out)
-        lea     0x80($out), $out
-        movdqa  0x70(%rsp), @XMM[7]     # prepare next iteration tweak
-        pxor    $twtmp, $twtmp
-        movdqa  .Lxts_magic(%rip), $twmask
-        pcmpgtd @XMM[7], $twtmp
-        pshufd  \$0x13, $twtmp, $twres
-        pxor    $twtmp, $twtmp
-        paddq   @XMM[7], @XMM[7]        # psllq 1,$tweak
-        pand    $twmask, $twres         # isolate carry and residue
-        pcmpgtd @XMM[7], $twtmp         # broadcast upper bits
-        pxor    $twres, @XMM[7]
-        sub     \$0x80,$len
-        jnc     .Lxts_enc_loop
-.Lxts_enc_short:
-        add     \$0x80, $len
-        jz      .Lxts_enc_done
-___
-    for ($i=0;$i<7;$i++) {
-    $code.=<<___;
-        pshufd  \$0x13, $twtmp, $twres
-        pxor    $twtmp, $twtmp
-        movdqa  @XMM[7], @XMM[$i]
-        movdqa  @XMM[7], `0x10*$i`(%rsp)# save tweak[$i]
-        paddq   @XMM[7], @XMM[7]        # psllq 1,$tweak
-        pand    $twmask, $twres         # isolate carry and residue
-        pcmpgtd @XMM[7], $twtmp         # broadcast upper bits
-        pxor    $twres, @XMM[7]
-___
-    $code.=<<___ if ($i>=1);
-        movdqu  `0x10*($i-1)`($inp), @XMM[8+$i-1]
-        cmp     \$`0x10*$i`,$len
-        je      .Lxts_enc_$i
-___
-    $code.=<<___ if ($i>=2);
-        pxor    @XMM[8+$i-2], @XMM[$i-2]# input[] ^ tweak[]
-___
-    }
-$code.=<<___;
-        movdqu  0x60($inp), @XMM[8+6]
-        pxor    @XMM[8+5], @XMM[5]
-        movdqa  @XMM[7], 0x70(%rsp)
-        lea     0x70($inp), $inp
-        pxor    @XMM[8+6], @XMM[6]
-        lea     0x80(%rsp), %rax        # pass key schedule
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_encrypt8
-        pxor    0x00(%rsp), @XMM[0]     # ^= tweak[]
-        pxor    0x10(%rsp), @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        pxor    0x20(%rsp), @XMM[4]
-        movdqu  @XMM[1], 0x10($out)
-        pxor    0x30(%rsp), @XMM[6]
-        movdqu  @XMM[4], 0x20($out)
-        pxor    0x40(%rsp), @XMM[3]
-        movdqu  @XMM[6], 0x30($out)
-        pxor    0x50(%rsp), @XMM[7]
-        movdqu  @XMM[3], 0x40($out)
-        pxor    0x60(%rsp), @XMM[2]
-        movdqu  @XMM[7], 0x50($out)
-        movdqu  @XMM[2], 0x60($out)
-        lea     0x70($out), $out
-        movdqa  0x70(%rsp), @XMM[7]     # next iteration tweak
-        jmp     .Lxts_enc_done
-.align  16
-.Lxts_enc_6:
-        pxor    @XMM[8+4], @XMM[4]
-        lea     0x60($inp), $inp
-        pxor    @XMM[8+5], @XMM[5]
-        lea     0x80(%rsp), %rax        # pass key schedule
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_encrypt8
-        pxor    0x00(%rsp), @XMM[0]     # ^= tweak[]
-        pxor    0x10(%rsp), @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        pxor    0x20(%rsp), @XMM[4]
-        movdqu  @XMM[1], 0x10($out)
-        pxor    0x30(%rsp), @XMM[6]
-        movdqu  @XMM[4], 0x20($out)
-        pxor    0x40(%rsp), @XMM[3]
-        movdqu  @XMM[6], 0x30($out)
-        pxor    0x50(%rsp), @XMM[7]
-        movdqu  @XMM[3], 0x40($out)
-        movdqu  @XMM[7], 0x50($out)
-        lea     0x60($out), $out
-        movdqa  0x60(%rsp), @XMM[7]     # next iteration tweak
-        jmp     .Lxts_enc_done
-.align  16
-.Lxts_enc_5:
-        pxor    @XMM[8+3], @XMM[3]
-        lea     0x50($inp), $inp
-        pxor    @XMM[8+4], @XMM[4]
-        lea     0x80(%rsp), %rax        # pass key schedule
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_encrypt8
-        pxor    0x00(%rsp), @XMM[0]     # ^= tweak[]
-        pxor    0x10(%rsp), @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        pxor    0x20(%rsp), @XMM[4]
-        movdqu  @XMM[1], 0x10($out)
-        pxor    0x30(%rsp), @XMM[6]
-        movdqu  @XMM[4], 0x20($out)
-        pxor    0x40(%rsp), @XMM[3]
-        movdqu  @XMM[6], 0x30($out)
-        movdqu  @XMM[3], 0x40($out)
-        lea     0x50($out), $out
-        movdqa  0x50(%rsp), @XMM[7]     # next iteration tweak
-        jmp     .Lxts_enc_done
-.align  16
-.Lxts_enc_4:
-        pxor    @XMM[8+2], @XMM[2]
-        lea     0x40($inp), $inp
-        pxor    @XMM[8+3], @XMM[3]
-        lea     0x80(%rsp), %rax        # pass key schedule
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_encrypt8
-        pxor    0x00(%rsp), @XMM[0]     # ^= tweak[]
-        pxor    0x10(%rsp), @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        pxor    0x20(%rsp), @XMM[4]
-        movdqu  @XMM[1], 0x10($out)
-        pxor    0x30(%rsp), @XMM[6]
-        movdqu  @XMM[4], 0x20($out)
-        movdqu  @XMM[6], 0x30($out)
-        lea     0x40($out), $out
-        movdqa  0x40(%rsp), @XMM[7]     # next iteration tweak
-        jmp     .Lxts_enc_done
-.align  16
-.Lxts_enc_3:
-        pxor    @XMM[8+1], @XMM[1]
-        lea     0x30($inp), $inp
-        pxor    @XMM[8+2], @XMM[2]
-        lea     0x80(%rsp), %rax        # pass key schedule
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_encrypt8
-        pxor    0x00(%rsp), @XMM[0]     # ^= tweak[]
-        pxor    0x10(%rsp), @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        pxor    0x20(%rsp), @XMM[4]
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[4], 0x20($out)
-        lea     0x30($out), $out
-        movdqa  0x30(%rsp), @XMM[7]     # next iteration tweak
-        jmp     .Lxts_enc_done
-.align  16
-.Lxts_enc_2:
-        pxor    @XMM[8+0], @XMM[0]
-        lea     0x20($inp), $inp
-        pxor    @XMM[8+1], @XMM[1]
-        lea     0x80(%rsp), %rax        # pass key schedule
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_encrypt8
-        pxor    0x00(%rsp), @XMM[0]     # ^= tweak[]
-        pxor    0x10(%rsp), @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        lea     0x20($out), $out
-        movdqa  0x20(%rsp), @XMM[7]     # next iteration tweak
-        jmp     .Lxts_enc_done
-.align  16
-.Lxts_enc_1:
-        pxor    @XMM[0], @XMM[8]
-        lea     0x10($inp), $inp
-        movdqa  @XMM[8], 0x20(%rbp)
-        lea     0x20(%rbp), $arg1
-        lea     0x20(%rbp), $arg2
-        lea     ($key), $arg3
-        call    asm_AES_encrypt         # doesn't touch %xmm
-        pxor    0x20(%rbp), @XMM[0]     # ^= tweak[]
-        #pxor   @XMM[8], @XMM[0]
-        #lea    0x80(%rsp), %rax        # pass key schedule
-        #mov    %edx, %r10d             # pass rounds
-        #call   _bsaes_encrypt8
-        #pxor   0x00(%rsp), @XMM[0]     # ^= tweak[]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        lea     0x10($out), $out
-        movdqa  0x10(%rsp), @XMM[7]     # next iteration tweak
-.Lxts_enc_done:
-        and     \$15, %ebx
-        jz      .Lxts_enc_ret
-        mov     $out, %rdx
-.Lxts_enc_steal:
-        movzb   ($inp), %eax
-        movzb   -16(%rdx), %ecx
-        lea     1($inp), $inp
-        mov     %al, -16(%rdx)
-        mov     %cl, 0(%rdx)
-        lea     1(%rdx), %rdx
-        sub     \$1,%ebx
-        jnz     .Lxts_enc_steal
-        movdqu  -16($out), @XMM[0]
-        lea     0x20(%rbp), $arg1
-        pxor    @XMM[7], @XMM[0]
-        lea     0x20(%rbp), $arg2
-        movdqa  @XMM[0], 0x20(%rbp)
-        lea     ($key), $arg3
-        call    asm_AES_encrypt         # doesn't touch %xmm
-        pxor    0x20(%rbp), @XMM[7]
-        movdqu  @XMM[7], -16($out)
-.Lxts_enc_ret:
-        lea     (%rsp), %rax
-        pxor    %xmm0, %xmm0
-.Lxts_enc_bzero:                        # wipe key schedule [if any]
-        movdqa  %xmm0, 0x00(%rax)
-        movdqa  %xmm0, 0x10(%rax)
-        lea     0x20(%rax), %rax
-        cmp     %rax, %rbp
-        ja      .Lxts_enc_bzero
-        lea     (%rbp),%rsp             # restore %rsp
-___
-$code.=<<___ if ($win64);
-        movaps  0x40(%rbp), %xmm6
-        movaps  0x50(%rbp), %xmm7
-        movaps  0x60(%rbp), %xmm8
-        movaps  0x70(%rbp), %xmm9
-        movaps  0x80(%rbp), %xmm10
-        movaps  0x90(%rbp), %xmm11
-        movaps  0xa0(%rbp), %xmm12
-        movaps  0xb0(%rbp), %xmm13
-        movaps  0xc0(%rbp), %xmm14
-        movaps  0xd0(%rbp), %xmm15
-        lea     0xa0(%rbp), %rsp
-___
-$code.=<<___;
-        mov     0x48(%rsp), %r15
-        mov     0x50(%rsp), %r14
-        mov     0x58(%rsp), %r13
-        mov     0x60(%rsp), %r12
-        mov     0x68(%rsp), %rbx
-        mov     0x70(%rsp), %rax
-        lea     0x78(%rsp), %rsp
-        mov     %rax, %rbp
-.Lxts_enc_epilogue:
-        ret
-.size   bsaes_xts_encrypt,.-bsaes_xts_encrypt
-.globl  bsaes_xts_decrypt
-.type   bsaes_xts_decrypt,\@abi-omnipotent
-.align  16
-bsaes_xts_decrypt:
-        _CET_ENDBR
-        mov     %rsp, %rax
-.Lxts_dec_prologue:
-        push    %rbp
-        push    %rbx
-        push    %r12
-        push    %r13
-        push    %r14
-        push    %r15
-        lea     -0x48(%rsp), %rsp
-___
-$code.=<<___ if ($win64);
-        mov     0xa0(%rsp),$arg5        # pull key2
-        mov     0xa8(%rsp),$arg6        # pull ivp
-        lea     -0xa0(%rsp), %rsp
-        movaps  %xmm6, 0x40(%rsp)
-        movaps  %xmm7, 0x50(%rsp)
-        movaps  %xmm8, 0x60(%rsp)
-        movaps  %xmm9, 0x70(%rsp)
-        movaps  %xmm10, 0x80(%rsp)
-        movaps  %xmm11, 0x90(%rsp)
-        movaps  %xmm12, 0xa0(%rsp)
-        movaps  %xmm13, 0xb0(%rsp)
-        movaps  %xmm14, 0xc0(%rsp)
-        movaps  %xmm15, 0xd0(%rsp)
-.Lxts_dec_body:
-___
-$code.=<<___;
-        mov     %rsp, %rbp              # backup %rsp
-        mov     $arg1, $inp             # backup arguments
-        mov     $arg2, $out
-        mov     $arg3, $len
-        mov     $arg4, $key
-        lea     ($arg6), $arg1
-        lea     0x20(%rbp), $arg2
-        lea     ($arg5), $arg3
-        call    asm_AES_encrypt         # generate initial tweak
-        mov     240($key), %eax         # rounds
-        mov     $len, %rbx              # backup $len
-        mov     %eax, %edx              # rounds
-        shl     \$7, %rax               # 128 bytes per inner round key
-        sub     \$`128-32`, %rax        # size of bit-sliced key schedule
-        sub     %rax, %rsp
-        mov     %rsp, %rax              # pass key schedule
-        mov     $key, %rcx              # pass key
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_key_convert
-        pxor    (%rsp), %xmm7           # fix up round 0 key
-        movdqa  %xmm6, (%rax)           # save last round key
-        movdqa  %xmm7, (%rsp)
-        xor     %eax, %eax              # if ($len%16) len-=16;
-        and     \$-16, $len
-        test    \$15, %ebx
-        setnz   %al
-        shl     \$4, %rax
-        sub     %rax, $len
-        sub     \$0x80, %rsp            # place for tweak[8]
-        movdqa  0x20(%rbp), @XMM[7]     # initial tweak
-        pxor    $twtmp, $twtmp
-        movdqa  .Lxts_magic(%rip), $twmask
-        pcmpgtd @XMM[7], $twtmp         # broadcast upper bits
-        sub     \$0x80, $len
-        jc      .Lxts_dec_short
-        jmp     .Lxts_dec_loop
-.align  16
-.Lxts_dec_loop:
-___
-    for ($i=0;$i<7;$i++) {
-    $code.=<<___;
-        pshufd  \$0x13, $twtmp, $twres
-        pxor    $twtmp, $twtmp
-        movdqa  @XMM[7], @XMM[$i]
-        movdqa  @XMM[7], `0x10*$i`(%rsp)# save tweak[$i]
-        paddq   @XMM[7], @XMM[7]        # psllq 1,$tweak
-        pand    $twmask, $twres         # isolate carry and residue
-        pcmpgtd @XMM[7], $twtmp         # broadcast upper bits
-        pxor    $twres, @XMM[7]
-___
-    $code.=<<___ if ($i>=1);
-        movdqu  `0x10*($i-1)`($inp), @XMM[8+$i-1]
-___
-    $code.=<<___ if ($i>=2);
-        pxor    @XMM[8+$i-2], @XMM[$i-2]# input[] ^ tweak[]
-___
-    }
-$code.=<<___;
-        movdqu  0x60($inp), @XMM[8+6]
-        pxor    @XMM[8+5], @XMM[5]
-        movdqu  0x70($inp), @XMM[8+7]
-        lea     0x80($inp), $inp
-        movdqa  @XMM[7], 0x70(%rsp)
-        pxor    @XMM[8+6], @XMM[6]
-        lea     0x80(%rsp), %rax        # pass key schedule
-        pxor    @XMM[8+7], @XMM[7]
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_decrypt8
-        pxor    0x00(%rsp), @XMM[0]     # ^= tweak[]
-        pxor    0x10(%rsp), @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        pxor    0x20(%rsp), @XMM[6]
-        movdqu  @XMM[1], 0x10($out)
-        pxor    0x30(%rsp), @XMM[4]
-        movdqu  @XMM[6], 0x20($out)
-        pxor    0x40(%rsp), @XMM[2]
-        movdqu  @XMM[4], 0x30($out)
-        pxor    0x50(%rsp), @XMM[7]
-        movdqu  @XMM[2], 0x40($out)
-        pxor    0x60(%rsp), @XMM[3]
-        movdqu  @XMM[7], 0x50($out)
-        pxor    0x70(%rsp), @XMM[5]
-        movdqu  @XMM[3], 0x60($out)
-        movdqu  @XMM[5], 0x70($out)
-        lea     0x80($out), $out
-        movdqa  0x70(%rsp), @XMM[7]     # prepare next iteration tweak
-        pxor    $twtmp, $twtmp
-        movdqa  .Lxts_magic(%rip), $twmask
-        pcmpgtd @XMM[7], $twtmp
-        pshufd  \$0x13, $twtmp, $twres
-        pxor    $twtmp, $twtmp
-        paddq   @XMM[7], @XMM[7]        # psllq 1,$tweak
-        pand    $twmask, $twres         # isolate carry and residue
-        pcmpgtd @XMM[7], $twtmp         # broadcast upper bits
-        pxor    $twres, @XMM[7]
-        sub     \$0x80,$len
-        jnc     .Lxts_dec_loop
-.Lxts_dec_short:
-        add     \$0x80, $len
-        jz      .Lxts_dec_done
-___
-    for ($i=0;$i<7;$i++) {
-    $code.=<<___;
-        pshufd  \$0x13, $twtmp, $twres
-        pxor    $twtmp, $twtmp
-        movdqa  @XMM[7], @XMM[$i]
-        movdqa  @XMM[7], `0x10*$i`(%rsp)# save tweak[$i]
-        paddq   @XMM[7], @XMM[7]        # psllq 1,$tweak
-        pand    $twmask, $twres         # isolate carry and residue
-        pcmpgtd @XMM[7], $twtmp         # broadcast upper bits
-        pxor    $twres, @XMM[7]
-___
-    $code.=<<___ if ($i>=1);
-        movdqu  `0x10*($i-1)`($inp), @XMM[8+$i-1]
-        cmp     \$`0x10*$i`,$len
-        je      .Lxts_dec_$i
-___
-    $code.=<<___ if ($i>=2);
-        pxor    @XMM[8+$i-2], @XMM[$i-2]# input[] ^ tweak[]
-___
-    }
-$code.=<<___;
-        movdqu  0x60($inp), @XMM[8+6]
-        pxor    @XMM[8+5], @XMM[5]
-        movdqa  @XMM[7], 0x70(%rsp)
-        lea     0x70($inp), $inp
-        pxor    @XMM[8+6], @XMM[6]
-        lea     0x80(%rsp), %rax        # pass key schedule
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_decrypt8
-        pxor    0x00(%rsp), @XMM[0]     # ^= tweak[]
-        pxor    0x10(%rsp), @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        pxor    0x20(%rsp), @XMM[6]
-        movdqu  @XMM[1], 0x10($out)
-        pxor    0x30(%rsp), @XMM[4]
-        movdqu  @XMM[6], 0x20($out)
-        pxor    0x40(%rsp), @XMM[2]
-        movdqu  @XMM[4], 0x30($out)
-        pxor    0x50(%rsp), @XMM[7]
-        movdqu  @XMM[2], 0x40($out)
-        pxor    0x60(%rsp), @XMM[3]
-        movdqu  @XMM[7], 0x50($out)
-        movdqu  @XMM[3], 0x60($out)
-        lea     0x70($out), $out
-        movdqa  0x70(%rsp), @XMM[7]     # next iteration tweak
-        jmp     .Lxts_dec_done
-.align  16
-.Lxts_dec_6:
-        pxor    @XMM[8+4], @XMM[4]
-        lea     0x60($inp), $inp
-        pxor    @XMM[8+5], @XMM[5]
-        lea     0x80(%rsp), %rax        # pass key schedule
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_decrypt8
-        pxor    0x00(%rsp), @XMM[0]     # ^= tweak[]
-        pxor    0x10(%rsp), @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        pxor    0x20(%rsp), @XMM[6]
-        movdqu  @XMM[1], 0x10($out)
-        pxor    0x30(%rsp), @XMM[4]
-        movdqu  @XMM[6], 0x20($out)
-        pxor    0x40(%rsp), @XMM[2]
-        movdqu  @XMM[4], 0x30($out)
-        pxor    0x50(%rsp), @XMM[7]
-        movdqu  @XMM[2], 0x40($out)
-        movdqu  @XMM[7], 0x50($out)
-        lea     0x60($out), $out
-        movdqa  0x60(%rsp), @XMM[7]     # next iteration tweak
-        jmp     .Lxts_dec_done
-.align  16
-.Lxts_dec_5:
-        pxor    @XMM[8+3], @XMM[3]
-        lea     0x50($inp), $inp
-        pxor    @XMM[8+4], @XMM[4]
-        lea     0x80(%rsp), %rax        # pass key schedule
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_decrypt8
-        pxor    0x00(%rsp), @XMM[0]     # ^= tweak[]
-        pxor    0x10(%rsp), @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        pxor    0x20(%rsp), @XMM[6]
-        movdqu  @XMM[1], 0x10($out)
-        pxor    0x30(%rsp), @XMM[4]
-        movdqu  @XMM[6], 0x20($out)
-        pxor    0x40(%rsp), @XMM[2]
-        movdqu  @XMM[4], 0x30($out)
-        movdqu  @XMM[2], 0x40($out)
-        lea     0x50($out), $out
-        movdqa  0x50(%rsp), @XMM[7]     # next iteration tweak
-        jmp     .Lxts_dec_done
-.align  16
-.Lxts_dec_4:
-        pxor    @XMM[8+2], @XMM[2]
-        lea     0x40($inp), $inp
-        pxor    @XMM[8+3], @XMM[3]
-        lea     0x80(%rsp), %rax        # pass key schedule
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_decrypt8
-        pxor    0x00(%rsp), @XMM[0]     # ^= tweak[]
-        pxor    0x10(%rsp), @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        pxor    0x20(%rsp), @XMM[6]
-        movdqu  @XMM[1], 0x10($out)
-        pxor    0x30(%rsp), @XMM[4]
-        movdqu  @XMM[6], 0x20($out)
-        movdqu  @XMM[4], 0x30($out)
-        lea     0x40($out), $out
-        movdqa  0x40(%rsp), @XMM[7]     # next iteration tweak
-        jmp     .Lxts_dec_done
-.align  16
-.Lxts_dec_3:
-        pxor    @XMM[8+1], @XMM[1]
-        lea     0x30($inp), $inp
-        pxor    @XMM[8+2], @XMM[2]
-        lea     0x80(%rsp), %rax        # pass key schedule
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_decrypt8
-        pxor    0x00(%rsp), @XMM[0]     # ^= tweak[]
-        pxor    0x10(%rsp), @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        pxor    0x20(%rsp), @XMM[6]
-        movdqu  @XMM[1], 0x10($out)
-        movdqu  @XMM[6], 0x20($out)
-        lea     0x30($out), $out
-        movdqa  0x30(%rsp), @XMM[7]     # next iteration tweak
-        jmp     .Lxts_dec_done
-.align  16
-.Lxts_dec_2:
-        pxor    @XMM[8+0], @XMM[0]
-        lea     0x20($inp), $inp
-        pxor    @XMM[8+1], @XMM[1]
-        lea     0x80(%rsp), %rax        # pass key schedule
-        mov     %edx, %r10d             # pass rounds
-        call    _bsaes_decrypt8
-        pxor    0x00(%rsp), @XMM[0]     # ^= tweak[]
-        pxor    0x10(%rsp), @XMM[1]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        movdqu  @XMM[1], 0x10($out)
-        lea     0x20($out), $out
-        movdqa  0x20(%rsp), @XMM[7]     # next iteration tweak
-        jmp     .Lxts_dec_done
-.align  16
-.Lxts_dec_1:
-        pxor    @XMM[0], @XMM[8]
-        lea     0x10($inp), $inp
-        movdqa  @XMM[8], 0x20(%rbp)
-        lea     0x20(%rbp), $arg1
-        lea     0x20(%rbp), $arg2
-        lea     ($key), $arg3
-        call    asm_AES_decrypt         # doesn't touch %xmm
-        pxor    0x20(%rbp), @XMM[0]     # ^= tweak[]
-        #pxor   @XMM[8], @XMM[0]
-        #lea    0x80(%rsp), %rax        # pass key schedule
-        #mov    %edx, %r10d             # pass rounds
-        #call   _bsaes_decrypt8
-        #pxor   0x00(%rsp), @XMM[0]     # ^= tweak[]
-        movdqu  @XMM[0], 0x00($out)     # write output
-        lea     0x10($out), $out
-        movdqa  0x10(%rsp), @XMM[7]     # next iteration tweak
-.Lxts_dec_done:
-        and     \$15, %ebx
-        jz      .Lxts_dec_ret
-        pxor    $twtmp, $twtmp
-        movdqa  .Lxts_magic(%rip), $twmask
-        pcmpgtd @XMM[7], $twtmp
-        pshufd  \$0x13, $twtmp, $twres
-        movdqa  @XMM[7], @XMM[6]
-        paddq   @XMM[7], @XMM[7]        # psllq 1,$tweak
-        pand    $twmask, $twres         # isolate carry and residue
-        movdqu  ($inp), @XMM[0]
-        pxor    $twres, @XMM[7]
-        lea     0x20(%rbp), $arg1
-        pxor    @XMM[7], @XMM[0]
-        lea     0x20(%rbp), $arg2
-        movdqa  @XMM[0], 0x20(%rbp)
-        lea     ($key), $arg3
-        call    asm_AES_decrypt         # doesn't touch %xmm
-        pxor    0x20(%rbp), @XMM[7]
-        mov     $out, %rdx
-        movdqu  @XMM[7], ($out)
-.Lxts_dec_steal:
-        movzb   16($inp), %eax
-        movzb   (%rdx), %ecx
-        lea     1($inp), $inp
-        mov     %al, (%rdx)
-        mov     %cl, 16(%rdx)
-        lea     1(%rdx), %rdx
-        sub     \$1,%ebx
-        jnz     .Lxts_dec_steal
-        movdqu  ($out), @XMM[0]
-        lea     0x20(%rbp), $arg1
-        pxor    @XMM[6], @XMM[0]
-        lea     0x20(%rbp), $arg2
-        movdqa  @XMM[0], 0x20(%rbp)
-        lea     ($key), $arg3
-        call    asm_AES_decrypt         # doesn't touch %xmm
-        pxor    0x20(%rbp), @XMM[6]
-        movdqu  @XMM[6], ($out)
-.Lxts_dec_ret:
-        lea     (%rsp), %rax
-        pxor    %xmm0, %xmm0
-.Lxts_dec_bzero:                        # wipe key schedule [if any]
-        movdqa  %xmm0, 0x00(%rax)
-        movdqa  %xmm0, 0x10(%rax)
-        lea     0x20(%rax), %rax
-        cmp     %rax, %rbp
-        ja      .Lxts_dec_bzero
-        lea     (%rbp),%rsp             # restore %rsp
-___
-$code.=<<___ if ($win64);
-        movaps  0x40(%rbp), %xmm6
-        movaps  0x50(%rbp), %xmm7
-        movaps  0x60(%rbp), %xmm8
-        movaps  0x70(%rbp), %xmm9
-        movaps  0x80(%rbp), %xmm10
-        movaps  0x90(%rbp), %xmm11
-        movaps  0xa0(%rbp), %xmm12
-        movaps  0xb0(%rbp), %xmm13
-        movaps  0xc0(%rbp), %xmm14
-        movaps  0xd0(%rbp), %xmm15
-        lea     0xa0(%rbp), %rsp
-___
-$code.=<<___;
-        mov     0x48(%rsp), %r15
-        mov     0x50(%rsp), %r14
-        mov     0x58(%rsp), %r13
-        mov     0x60(%rsp), %r12
-        mov     0x68(%rsp), %rbx
-        mov     0x70(%rsp), %rax
-        lea     0x78(%rsp), %rsp
-        mov     %rax, %rbp
-.Lxts_dec_epilogue:
-        ret
-.size   bsaes_xts_decrypt,.-bsaes_xts_decrypt
-___
-}
-$code.=<<___;
-.section .rodata
-.type   _bsaes_const,\@object
-.align  64
-_bsaes_const:
-.LM0ISR:        # InvShiftRows constants
-        .quad   0x0a0e0206070b0f03, 0x0004080c0d010509
-.LISRM0:
-        .quad   0x01040b0e0205080f, 0x0306090c00070a0d
-.LISR:
-        .quad   0x0504070602010003, 0x0f0e0d0c080b0a09
-.LBS0:          # bit-slice constants
-        .quad   0x5555555555555555, 0x5555555555555555
-.LBS1:
-        .quad   0x3333333333333333, 0x3333333333333333
-.LBS2:
-        .quad   0x0f0f0f0f0f0f0f0f, 0x0f0f0f0f0f0f0f0f
-.LSR:           # shiftrows constants
-        .quad   0x0504070600030201, 0x0f0e0d0c0a09080b
-.LSRM0:
-        .quad   0x0304090e00050a0f, 0x01060b0c0207080d
-.LM0SR:
-        .quad   0x0a0e02060f03070b, 0x0004080c05090d01
-.LSWPUP:        # byte-swap upper dword
-        .quad   0x0706050403020100, 0x0c0d0e0f0b0a0908
-.LSWPUPM0SR:
-        .quad   0x0a0d02060c03070b, 0x0004080f05090e01
-.LADD1:         # counter increment constants
-        .quad   0x0000000000000000, 0x0000000100000000
-.LADD2:
-        .quad   0x0000000000000000, 0x0000000200000000
-.LADD3:
-        .quad   0x0000000000000000, 0x0000000300000000
-.LADD4:
-        .quad   0x0000000000000000, 0x0000000400000000
-.LADD5:
-        .quad   0x0000000000000000, 0x0000000500000000
-.LADD6:
-        .quad   0x0000000000000000, 0x0000000600000000
-.LADD7:
-        .quad   0x0000000000000000, 0x0000000700000000
-.LADD8:
-        .quad   0x0000000000000000, 0x0000000800000000
-.Lxts_magic:
-        .long   0x87,0,1,0
-.Lmasks:
-        .quad   0x0101010101010101, 0x0101010101010101
-        .quad   0x0202020202020202, 0x0202020202020202
-        .quad   0x0404040404040404, 0x0404040404040404
-        .quad   0x0808080808080808, 0x0808080808080808
-.LM0:
-        .quad   0x02060a0e03070b0f, 0x0004080c0105090d
-.L63:
-        .quad   0x6363636363636363, 0x6363636363636363
-.align  64
-.size   _bsaes_const,.-_bsaes_const
-.text
-___
-# EXCEPTION_DISPOSITION handler (EXCEPTION_RECORD *rec,ULONG64 frame,
-#               CONTEXT *context,DISPATCHER_CONTEXT *disp)
-if ($win64) {
-$rec="%rcx";
-$frame="%rdx";
-$context="%r8";
-$disp="%r9";
-$code.=<<___;
-.extern __imp_RtlVirtualUnwind
-.type   se_handler,\@abi-omnipotent
-.align  16
-se_handler:
-        _CET_ENDBR
-        push    %rsi
-        push    %rdi
-        push    %rbx
-        push    %rbp
-        push    %r12
-        push    %r13
-        push    %r14
-        push    %r15
-        pushfq
-        sub     \$64,%rsp
-        mov     120($context),%rax      # pull context->Rax
-        mov     248($context),%rbx      # pull context->Rip
-        mov     8($disp),%rsi           # disp->ImageBase
-        mov     56($disp),%r11          # disp->HandlerData
-        mov     0(%r11),%r10d           # HandlerData[0]
-        lea     (%rsi,%r10),%r10        # prologue label
-        cmp     %r10,%rbx               # context->Rip<prologue label
-        jb      .Lin_prologue
-        mov     152($context),%rax      # pull context->Rsp
-        mov     4(%r11),%r10d           # HandlerData[1]
-        lea     (%rsi,%r10),%r10        # epilogue label
-        cmp     %r10,%rbx               # context->Rip>=epilogue label
-        jae     .Lin_prologue
-        mov     160($context),%rax      # pull context->Rbp
-        lea     0x40(%rax),%rsi         # %xmm save area
-        lea     512($context),%rdi      # &context.Xmm6
-        mov     \$20,%ecx               # 10*sizeof(%xmm0)/sizeof(%rax)
-        .long   0xa548f3fc              # cld; rep movsq
-        lea     0xa0(%rax),%rax         # adjust stack pointer
-        mov     0x70(%rax),%rbp
-        mov     0x68(%rax),%rbx
-        mov     0x60(%rax),%r12
-        mov     0x58(%rax),%r13
-        mov     0x50(%rax),%r14
-        mov     0x48(%rax),%r15
-        lea     0x78(%rax),%rax         # adjust stack pointer
-        mov     %rbx,144($context)      # restore context->Rbx
-        mov     %rbp,160($context)      # restore context->Rbp
-        mov     %r12,216($context)      # restore context->R12
-        mov     %r13,224($context)      # restore context->R13
-        mov     %r14,232($context)      # restore context->R14
-        mov     %r15,240($context)      # restore context->R15
-.Lin_prologue:
-        mov     %rax,152($context)      # restore context->Rsp
-        mov     40($disp),%rdi          # disp->ContextRecord
-        mov     $context,%rsi           # context
-        mov     \$`1232/8`,%ecx         # sizeof(CONTEXT)
-        .long   0xa548f3fc              # cld; rep movsq
-        mov     $disp,%rsi
-        xor     %rcx,%rcx               # arg1, UNW_FLAG_NHANDLER
-        mov     8(%rsi),%rdx            # arg2, disp->ImageBase
-        mov     0(%rsi),%r8             # arg3, disp->ControlPc
-        mov     16(%rsi),%r9            # arg4, disp->FunctionEntry
-        mov     40(%rsi),%r10           # disp->ContextRecord
-        lea     56(%rsi),%r11           # &disp->HandlerData
-        lea     24(%rsi),%r12           # &disp->EstablisherFrame
-        mov     %r10,32(%rsp)           # arg5
-        mov     %r11,40(%rsp)           # arg6
-        mov     %r12,48(%rsp)           # arg7
-        mov     %rcx,56(%rsp)           # arg8, (NULL)
-        call    *__imp_RtlVirtualUnwind(%rip)
-        mov     \$1,%eax                # ExceptionContinueSearch
-        add     \$64,%rsp
-        popfq
-        pop     %r15
-        pop     %r14
-        pop     %r13
-        pop     %r12
-        pop     %rbp
-        pop     %rbx
-        pop     %rdi
-        pop     %rsi
-        ret
-.size   se_handler,.-se_handler
-.section        .pdata
-.align  4
-___
-$code.=<<___ if ($ecb);
-        .rva    .Lecb_enc_prologue
-        .rva    .Lecb_enc_epilogue
-        .rva    .Lecb_enc_info
-        .rva    .Lecb_dec_prologue
-        .rva    .Lecb_dec_epilogue
-        .rva    .Lecb_dec_info
-___
-$code.=<<___;
-        .rva    .Lcbc_dec_prologue
-        .rva    .Lcbc_dec_epilogue
-        .rva    .Lcbc_dec_info
-        .rva    .Lctr_enc_prologue
-        .rva    .Lctr_enc_epilogue
-        .rva    .Lctr_enc_info
-        .rva    .Lxts_enc_prologue
-        .rva    .Lxts_enc_epilogue
-        .rva    .Lxts_enc_info
-        .rva    .Lxts_dec_prologue
-        .rva    .Lxts_dec_epilogue
-        .rva    .Lxts_dec_info
-.section        .xdata
-.align  8
-___
-$code.=<<___ if ($ecb);
-.Lecb_enc_info:
-        .byte   9,0,0,0
-        .rva    se_handler
-        .rva    .Lecb_enc_body,.Lecb_enc_epilogue       # HandlerData[]
-.Lecb_dec_info:
-        .byte   9,0,0,0
-        .rva    se_handler
-        .rva    .Lecb_dec_body,.Lecb_dec_epilogue       # HandlerData[]
-___
-$code.=<<___;
-.Lcbc_dec_info:
-        .byte   9,0,0,0
-        .rva    se_handler
-        .rva    .Lcbc_dec_body,.Lcbc_dec_epilogue       # HandlerData[]
-.Lctr_enc_info:
-        .byte   9,0,0,0
-        .rva    se_handler
-        .rva    .Lctr_enc_body,.Lctr_enc_epilogue       # HandlerData[]
-.Lxts_enc_info:
-        .byte   9,0,0,0
-        .rva    se_handler
-        .rva    .Lxts_enc_body,.Lxts_enc_epilogue       # HandlerData[]
-.Lxts_dec_info:
-        .byte   9,0,0,0
-        .rva    se_handler
-        .rva    .Lxts_dec_body,.Lxts_dec_epilogue       # HandlerData[]
-___
-}
-$code =~ s/\`([^\`]*)\`/eval($1)/gem;
-print $code;
-close STDOUT;
diff --git a/src/lib/libcrypto/aes/asm/vpaes-x86.pl b/src/lib/libcrypto/aes/asm/vpaes-x86.pl
deleted file mode 100644
index 6e7bd36d05..0000000000
--- a/src/lib/libcrypto/aes/asm/vpaes-x86.pl
+++ /dev/null
@@ -1,911 +0,0 @@
-#!/usr/bin/env perl
-######################################################################
-## Constant-time SSSE3 AES core implementation.
-## version 0.1
-##
-## By Mike Hamburg (Stanford University), 2009
-## Public domain.
-##
-## For details see http://shiftleft.org/papers/vector_aes/ and
-## http://crypto.stanford.edu/vpaes/.
-######################################################################
-# September 2011.
-#
-# Port vpaes-x86_64.pl as 32-bit "almost" drop-in replacement for
-# aes-586.pl. "Almost" refers to the fact that AES_cbc_encrypt
-# doesn't handle partial vectors (doesn't have to if called from
-# EVP only). "Drop-in" implies that this module doesn't share key
-# schedule structure with the original nor does it make assumption
-# about its alignment...
-#
-# Performance summary. aes-586.pl column lists large-block CBC
-# encrypt/decrypt/with-hyper-threading-off(*) results in cycles per
-# byte processed with 128-bit key, and vpaes-x86.pl column - [also
-# large-block CBC] encrypt/decrypt.
-#
-#               aes-586.pl              vpaes-x86.pl
-#
-# Core 2(**)    29.1/42.3/18.3          22.0/25.6(***)
-# Nehalem       27.9/40.4/18.1          10.3/12.0
-# Atom          102./119./60.1          64.5/85.3(***)
-#
-# (*)   "Hyper-threading" in the context refers rather to cache shared
-#       among multiple cores, than to specifically Intel HTT. As vast
-#       majority of contemporary cores share cache, slower code path
-#       is common place. In other words "with-hyper-threading-off"
-#       results are presented mostly for reference purposes.
-#
-# (**)  "Core 2" refers to initial 65nm design, a.k.a. Conroe.
-#
-# (***) Less impressive improvement on Core 2 and Atom is due to slow
-#       pshufb, yet it's respectable +32%/65%  improvement on Core 2
-#       and +58%/40% on Atom (as implied, over "hyper-threading-safe"
-#       code path).
-#
-#                                               <appro@openssl.org>
-$0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
-push(@INC,"${dir}","${dir}../../perlasm");
-require "x86asm.pl";
-&asm_init($ARGV[0],"vpaes-x86.pl",$x86only = $ARGV[$#ARGV] eq "386");
-$PREFIX="vpaes";
-my  ($round, $base, $magic, $key, $const, $inp, $out)=
-    ("eax",  "ebx", "ecx",  "edx","ebp",  "esi","edi");
-        &rodataseg();
-&static_label("_vpaes_consts");
-&static_label("_vpaes_schedule_low_round");
-&set_label("_vpaes_consts",64);
-$k_inv=-0x30;           # inv, inva
-        &data_word(0x0D080180,0x0E05060F,0x0A0B0C02,0x04070309);
-        &data_word(0x0F0B0780,0x01040A06,0x02050809,0x030D0E0C);
-$k_s0F=-0x10;           # s0F
-        &data_word(0x0F0F0F0F,0x0F0F0F0F,0x0F0F0F0F,0x0F0F0F0F);
-$k_ipt=0x00;            # input transform (lo, hi)
-        &data_word(0x5A2A7000,0xC2B2E898,0x52227808,0xCABAE090);
-        &data_word(0x317C4D00,0x4C01307D,0xB0FDCC81,0xCD80B1FC);
-$k_sb1=0x20;            # sb1u, sb1t
-        &data_word(0xCB503E00,0xB19BE18F,0x142AF544,0xA5DF7A6E);
-        &data_word(0xFAE22300,0x3618D415,0x0D2ED9EF,0x3BF7CCC1);
-$k_sb2=0x40;            # sb2u, sb2t
-        &data_word(0x0B712400,0xE27A93C6,0xBC982FCD,0x5EB7E955);
-        &data_word(0x0AE12900,0x69EB8840,0xAB82234A,0xC2A163C8);
-$k_sbo=0x60;            # sbou, sbot
-        &data_word(0x6FBDC700,0xD0D26D17,0xC502A878,0x15AABF7A);
-        &data_word(0x5FBB6A00,0xCFE474A5,0x412B35FA,0x8E1E90D1);
-$k_mc_forward=0x80;     # mc_forward
-        &data_word(0x00030201,0x04070605,0x080B0A09,0x0C0F0E0D);
-        &data_word(0x04070605,0x080B0A09,0x0C0F0E0D,0x00030201);
-        &data_word(0x080B0A09,0x0C0F0E0D,0x00030201,0x04070605);
-        &data_word(0x0C0F0E0D,0x00030201,0x04070605,0x080B0A09);
-$k_mc_backward=0xc0;    # mc_backward
-        &data_word(0x02010003,0x06050407,0x0A09080B,0x0E0D0C0F);
-        &data_word(0x0E0D0C0F,0x02010003,0x06050407,0x0A09080B);
-        &data_word(0x0A09080B,0x0E0D0C0F,0x02010003,0x06050407);
-        &data_word(0x06050407,0x0A09080B,0x0E0D0C0F,0x02010003);
-$k_sr=0x100;            # sr
-        &data_word(0x03020100,0x07060504,0x0B0A0908,0x0F0E0D0C);
-        &data_word(0x0F0A0500,0x030E0904,0x07020D08,0x0B06010C);
-        &data_word(0x0B020900,0x0F060D04,0x030A0108,0x070E050C);
-        &data_word(0x070A0D00,0x0B0E0104,0x0F020508,0x0306090C);
-$k_rcon=0x140;          # rcon
-        &data_word(0xAF9DEEB6,0x1F8391B9,0x4D7C7D81,0x702A9808);
-$k_s63=0x150;           # s63: all equal to 0x63 transformed
-        &data_word(0x5B5B5B5B,0x5B5B5B5B,0x5B5B5B5B,0x5B5B5B5B);
-$k_opt=0x160;           # output transform
-        &data_word(0xD6B66000,0xFF9F4929,0xDEBE6808,0xF7974121);
-        &data_word(0x50BCEC00,0x01EDBD51,0xB05C0CE0,0xE10D5DB1);
-$k_deskew=0x180;        # deskew tables: inverts the sbox's "skew"
-        &data_word(0x47A4E300,0x07E4A340,0x5DBEF91A,0x1DFEB95A);
-        &data_word(0x83EA6900,0x5F36B5DC,0xF49D1E77,0x2841C2AB);
-##
-##  Decryption stuff
-##  Key schedule constants
-##
-$k_dksd=0x1a0;          # decryption key schedule: invskew x*D
-        &data_word(0xA3E44700,0xFEB91A5D,0x5A1DBEF9,0x0740E3A4);
-        &data_word(0xB5368300,0x41C277F4,0xAB289D1E,0x5FDC69EA);
-$k_dksb=0x1c0;          # decryption key schedule: invskew x*B
-        &data_word(0x8550D500,0x9A4FCA1F,0x1CC94C99,0x03D65386);
-        &data_word(0xB6FC4A00,0x115BEDA7,0x7E3482C8,0xD993256F);
-$k_dkse=0x1e0;          # decryption key schedule: invskew x*E + 0x63
-        &data_word(0x1FC9D600,0xD5031CCA,0x994F5086,0x53859A4C);
-        &data_word(0x4FDC7BE8,0xA2319605,0x20B31487,0xCD5EF96A);
-$k_dks9=0x200;          # decryption key schedule: invskew x*9
-        &data_word(0x7ED9A700,0xB6116FC8,0x82255BFC,0x4AED9334);
-        &data_word(0x27143300,0x45765162,0xE9DAFDCE,0x8BB89FAC);
-##
-##  Decryption stuff
-##  Round function constants
-##
-$k_dipt=0x220;          # decryption input transform
-        &data_word(0x0B545F00,0x0F505B04,0x114E451A,0x154A411E);
-        &data_word(0x60056500,0x86E383E6,0xF491F194,0x12771772);
-$k_dsb9=0x240;          # decryption sbox output *9*u, *9*t
-        &data_word(0x9A86D600,0x851C0353,0x4F994CC9,0xCAD51F50);
-        &data_word(0xECD74900,0xC03B1789,0xB2FBA565,0x725E2C9E);
-$k_dsbd=0x260;          # decryption sbox output *D*u, *D*t
-        &data_word(0xE6B1A200,0x7D57CCDF,0x882A4439,0xF56E9B13);
-        &data_word(0x24C6CB00,0x3CE2FAF7,0x15DEEFD3,0x2931180D);
-$k_dsbb=0x280;          # decryption sbox output *B*u, *B*t
-        &data_word(0x96B44200,0xD0226492,0xB0F2D404,0x602646F6);
-        &data_word(0xCD596700,0xC19498A6,0x3255AA6B,0xF3FF0C3E);
-$k_dsbe=0x2a0;          # decryption sbox output *E*u, *E*t
-        &data_word(0x26D4D000,0x46F29296,0x64B4F6B0,0x22426004);
-        &data_word(0xFFAAC100,0x0C55A6CD,0x98593E32,0x9467F36B);
-$k_dsbo=0x2c0;          # decryption sbox final output
-        &data_word(0x7EF94000,0x1387EA53,0xD4943E2D,0xC7AA6DB9);
-        &data_word(0x93441D00,0x12D7560F,0xD8C58E9C,0xCA4B8159);
-        &previous();
-&function_begin_B("_vpaes_preheat");
-        &movdqa ("xmm7",&QWP($k_inv,$const));
-        &movdqa ("xmm6",&QWP($k_s0F,$const));
-        &ret    ();
-&function_end_B("_vpaes_preheat");
-##
-##  _aes_encrypt_core
-##
-##  AES-encrypt %xmm0.
-##
-##  Inputs:
-##     %xmm0 = input
-##     %xmm6-%xmm7 as in _vpaes_preheat
-##    (%edx) = scheduled keys
-##
-##  Output in %xmm0
-##  Clobbers  %xmm1-%xmm5, %eax, %ebx, %ecx, %edx
-##
-##
-&function_begin_B("_vpaes_encrypt_core");
-        &mov    ($magic,16);
-        &mov    ($round,&DWP(240,$key));
-        &movdqa ("xmm1","xmm6")
-        &movdqa ("xmm2",&QWP($k_ipt,$const));
-        &pandn  ("xmm1","xmm0");
-        &movdqu ("xmm5",&QWP(0,$key));
-        &psrld  ("xmm1",4);
-        &pand   ("xmm0","xmm6");
-        &pshufb ("xmm2","xmm0");
-        &movdqa ("xmm0",&QWP($k_ipt+16,$const));
-        &pshufb ("xmm0","xmm1");
-        &pxor   ("xmm2","xmm5");
-        &pxor   ("xmm0","xmm2");
-        &add    ($key,16);
-        &lea    ($base,&DWP($k_mc_backward,$const));
-        &jmp    (&label("enc_entry"));
-&set_label("enc_loop",16);
-        # middle of middle round
-        &movdqa ("xmm4",&QWP($k_sb1,$const));   # 4 : sb1u
-        &pshufb ("xmm4","xmm2");                # 4 = sb1u
-        &pxor   ("xmm4","xmm5");                # 4 = sb1u + k
-        &movdqa ("xmm0",&QWP($k_sb1+16,$const));# 0 : sb1t
-        &pshufb ("xmm0","xmm3");                # 0 = sb1t
-        &pxor   ("xmm0","xmm4");                # 0 = A
-        &movdqa ("xmm5",&QWP($k_sb2,$const));   # 4 : sb2u
-        &pshufb ("xmm5","xmm2");                # 4 = sb2u
-        &movdqa ("xmm1",&QWP(-0x40,$base,$magic));# .Lk_mc_forward[]
-        &movdqa ("xmm2",&QWP($k_sb2+16,$const));# 2 : sb2t
-        &pshufb ("xmm2","xmm3");                # 2 = sb2t
-        &pxor   ("xmm2","xmm5");                # 2 = 2A
-        &movdqa ("xmm4",&QWP(0,$base,$magic));  # .Lk_mc_backward[]
-        &movdqa ("xmm3","xmm0");                # 3 = A
-        &pshufb ("xmm0","xmm1");                # 0 = B
-        &add    ($key,16);                      # next key
-        &pxor   ("xmm0","xmm2");                # 0 = 2A+B
-        &pshufb ("xmm3","xmm4");                # 3 = D
-        &add    ($magic,16);                    # next mc
-        &pxor   ("xmm3","xmm0");                # 3 = 2A+B+D
-        &pshufb ("xmm0","xmm1");                # 0 = 2B+C
-        &and    ($magic,0x30);                  # ... mod 4
-        &pxor   ("xmm0","xmm3");                # 0 = 2A+3B+C+D
-        &sub    ($round,1);                     # nr--
-&set_label("enc_entry");
-        # top of round
-        &movdqa ("xmm1","xmm6");                # 1 : i
-        &pandn  ("xmm1","xmm0");                # 1 = i<<4
-        &psrld  ("xmm1",4);                     # 1 = i
-        &pand   ("xmm0","xmm6");                # 0 = k
-        &movdqa ("xmm5",&QWP($k_inv+16,$const));# 2 : a/k
-        &pshufb ("xmm5","xmm0");                # 2 = a/k
-        &pxor   ("xmm0","xmm1");                # 0 = j
-        &movdqa ("xmm3","xmm7");                # 3 : 1/i
-        &pshufb ("xmm3","xmm1");                # 3 = 1/i
-        &pxor   ("xmm3","xmm5");                # 3 = iak = 1/i + a/k
-        &movdqa ("xmm4","xmm7");                # 4 : 1/j
-        &pshufb ("xmm4","xmm0");                # 4 = 1/j
-        &pxor   ("xmm4","xmm5");                # 4 = jak = 1/j + a/k
-        &movdqa ("xmm2","xmm7");                # 2 : 1/iak
-        &pshufb ("xmm2","xmm3");                # 2 = 1/iak
-        &pxor   ("xmm2","xmm0");                # 2 = io
-        &movdqa ("xmm3","xmm7");                # 3 : 1/jak
-        &movdqu ("xmm5",&QWP(0,$key));
-        &pshufb ("xmm3","xmm4");                # 3 = 1/jak
-        &pxor   ("xmm3","xmm1");                # 3 = jo
-        &jnz    (&label("enc_loop"));
-        # middle of last round
-        &movdqa ("xmm4",&QWP($k_sbo,$const));   # 3 : sbou      .Lk_sbo
-        &movdqa ("xmm0",&QWP($k_sbo+16,$const));# 3 : sbot      .Lk_sbo+16
-        &pshufb ("xmm4","xmm2");                # 4 = sbou
-        &pxor   ("xmm4","xmm5");                # 4 = sb1u + k
-        &pshufb ("xmm0","xmm3");                # 0 = sb1t
-        &movdqa ("xmm1",&QWP(0x40,$base,$magic));# .Lk_sr[]
-        &pxor   ("xmm0","xmm4");                # 0 = A
-        &pshufb ("xmm0","xmm1");
-        &ret    ();
-&function_end_B("_vpaes_encrypt_core");
-##
-##  Decryption core
-##
-##  Same API as encryption core.
-##
-&function_begin_B("_vpaes_decrypt_core");
-        &mov    ($round,&DWP(240,$key));
-        &lea    ($base,&DWP($k_dsbd,$const));
-        &movdqa ("xmm1","xmm6");
-        &movdqa ("xmm2",&QWP($k_dipt-$k_dsbd,$base));
-        &pandn  ("xmm1","xmm0");
-        &mov    ($magic,$round);
-        &psrld  ("xmm1",4)
-        &movdqu ("xmm5",&QWP(0,$key));
-        &shl    ($magic,4);
-        &pand   ("xmm0","xmm6");
-        &pshufb ("xmm2","xmm0");
-        &movdqa ("xmm0",&QWP($k_dipt-$k_dsbd+16,$base));
-        &xor    ($magic,0x30);
-        &pshufb ("xmm0","xmm1");
-        &and    ($magic,0x30);
-        &pxor   ("xmm2","xmm5");
-        &movdqa ("xmm5",&QWP($k_mc_forward+48,$const));
-        &pxor   ("xmm0","xmm2");
-        &add    ($key,16);
-        &lea    ($magic,&DWP($k_sr-$k_dsbd,$base,$magic));
-        &jmp    (&label("dec_entry"));
-&set_label("dec_loop",16);
-##
-##  Inverse mix columns
-##
-        &movdqa ("xmm4",&QWP(-0x20,$base));     # 4 : sb9u
-        &pshufb ("xmm4","xmm2");                # 4 = sb9u
-        &pxor   ("xmm4","xmm0");
-        &movdqa ("xmm0",&QWP(-0x10,$base));     # 0 : sb9t
-        &pshufb ("xmm0","xmm3");                # 0 = sb9t
-        &pxor   ("xmm0","xmm4");                # 0 = ch
-        &add    ($key,16);                      # next round key
-        &pshufb ("xmm0","xmm5");                # MC ch
-        &movdqa ("xmm4",&QWP(0,$base));         # 4 : sbdu
-        &pshufb ("xmm4","xmm2");                # 4 = sbdu
-        &pxor   ("xmm4","xmm0");                # 4 = ch
-        &movdqa ("xmm0",&QWP(0x10,$base));      # 0 : sbdt
-        &pshufb ("xmm0","xmm3");                # 0 = sbdt
-        &pxor   ("xmm0","xmm4");                # 0 = ch
-        &sub    ($round,1);                     # nr--
-        &pshufb ("xmm0","xmm5");                # MC ch
-        &movdqa ("xmm4",&QWP(0x20,$base));      # 4 : sbbu
-        &pshufb ("xmm4","xmm2");                # 4 = sbbu
-        &pxor   ("xmm4","xmm0");                # 4 = ch
-        &movdqa ("xmm0",&QWP(0x30,$base));      # 0 : sbbt
-        &pshufb ("xmm0","xmm3");                # 0 = sbbt
-        &pxor   ("xmm0","xmm4");                # 0 = ch
-        &pshufb ("xmm0","xmm5");                # MC ch
-        &movdqa ("xmm4",&QWP(0x40,$base));      # 4 : sbeu
-        &pshufb ("xmm4","xmm2");                # 4 = sbeu
-        &pxor   ("xmm4","xmm0");                # 4 = ch
-        &movdqa ("xmm0",&QWP(0x50,$base));      # 0 : sbet
-        &pshufb ("xmm0","xmm3");                # 0 = sbet
-        &pxor   ("xmm0","xmm4");                # 0 = ch
-        &palignr("xmm5","xmm5",12);
-&set_label("dec_entry");
-        # top of round
-        &movdqa ("xmm1","xmm6");                # 1 : i
-        &pandn  ("xmm1","xmm0");                # 1 = i<<4
-        &psrld  ("xmm1",4);                     # 1 = i
-        &pand   ("xmm0","xmm6");                # 0 = k
-        &movdqa ("xmm2",&QWP($k_inv+16,$const));# 2 : a/k
-        &pshufb ("xmm2","xmm0");                # 2 = a/k
-        &pxor   ("xmm0","xmm1");                # 0 = j
-        &movdqa ("xmm3","xmm7");                # 3 : 1/i
-        &pshufb ("xmm3","xmm1");                # 3 = 1/i
-        &pxor   ("xmm3","xmm2");                # 3 = iak = 1/i + a/k
-        &movdqa ("xmm4","xmm7");                # 4 : 1/j
-        &pshufb ("xmm4","xmm0");                # 4 = 1/j
-        &pxor   ("xmm4","xmm2");                # 4 = jak = 1/j + a/k
-        &movdqa ("xmm2","xmm7");                # 2 : 1/iak
-        &pshufb ("xmm2","xmm3");                # 2 = 1/iak
-        &pxor   ("xmm2","xmm0");                # 2 = io
-        &movdqa ("xmm3","xmm7");                # 3 : 1/jak
-        &pshufb ("xmm3","xmm4");                # 3 = 1/jak
-        &pxor   ("xmm3","xmm1");                # 3 = jo
-        &movdqu ("xmm0",&QWP(0,$key));
-        &jnz    (&label("dec_loop"));
-        # middle of last round
-        &movdqa ("xmm4",&QWP(0x60,$base));      # 3 : sbou
-        &pshufb ("xmm4","xmm2");                # 4 = sbou
-        &pxor   ("xmm4","xmm0");                # 4 = sb1u + k
-        &movdqa ("xmm0",&QWP(0x70,$base));      # 0 : sbot
-        &movdqa ("xmm2",&QWP(0,$magic));
-        &pshufb ("xmm0","xmm3");                # 0 = sb1t
-        &pxor   ("xmm0","xmm4");                # 0 = A
-        &pshufb ("xmm0","xmm2");
-        &ret    ();
-&function_end_B("_vpaes_decrypt_core");
-########################################################
-##                                                    ##
-##                  AES key schedule                  ##
-##                                                    ##
-########################################################
-&function_begin_B("_vpaes_schedule_core");
-        &movdqu ("xmm0",&QWP(0,$inp));          # load key (unaligned)
-        &movdqa ("xmm2",&QWP($k_rcon,$const));  # load rcon
-        # input transform
-        &movdqa ("xmm3","xmm0");
-        &lea    ($base,&DWP($k_ipt,$const));
-        &movdqa (&QWP(4,"esp"),"xmm2");         # xmm8
-        &call   ("_vpaes_schedule_transform");
-        &movdqa ("xmm7","xmm0");
-        &test   ($out,$out);
-        &jnz    (&label("schedule_am_decrypting"));
-        # encrypting, output zeroth round key after transform
-        &movdqu (&QWP(0,$key),"xmm0");
-        &jmp    (&label("schedule_go"));
-&set_label("schedule_am_decrypting");
-        # decrypting, output zeroth round key after shiftrows
-        &movdqa ("xmm1",&QWP($k_sr,$const,$magic));
-        &pshufb ("xmm3","xmm1");
-        &movdqu (&QWP(0,$key),"xmm3");
-        &xor    ($magic,0x30);
-&set_label("schedule_go");
-        &cmp    ($round,192);
-        &ja     (&label("schedule_256"));
-        &je     (&label("schedule_192"));
-        # 128: fall though
-##
-##  .schedule_128
-##
-##  128-bit specific part of key schedule.
-##
-##  This schedule is really simple, because all its parts
-##  are accomplished by the subroutines.
-##
-&set_label("schedule_128");
-        &mov    ($round,10);
-&set_label("loop_schedule_128");
-        &call   ("_vpaes_schedule_round");
-        &dec    ($round);
-        &jz     (&label("schedule_mangle_last"));
-        &call   ("_vpaes_schedule_mangle");     # write output
-        &jmp    (&label("loop_schedule_128"));
-##
-##  .aes_schedule_192
-##
-##  192-bit specific part of key schedule.
-##
-##  The main body of this schedule is the same as the 128-bit
-##  schedule, but with more smearing.  The long, high side is
-##  stored in %xmm7 as before, and the short, low side is in
-##  the high bits of %xmm6.
-##
-##  This schedule is somewhat nastier, however, because each
-##  round produces 192 bits of key material, or 1.5 round keys.
-##  Therefore, on each cycle we do 2 rounds and produce 3 round
-##  keys.
-##
-&set_label("schedule_192",16);
-        &movdqu ("xmm0",&QWP(8,$inp));          # load key part 2 (very unaligned)
-        &call   ("_vpaes_schedule_transform");  # input transform       
-        &movdqa ("xmm6","xmm0");                # save short part
-        &pxor   ("xmm4","xmm4");                # clear 4
-        &movhlps("xmm6","xmm4");                # clobber low side with zeros
-        &mov    ($round,4);
-&set_label("loop_schedule_192");
-        &call   ("_vpaes_schedule_round");
-        &palignr("xmm0","xmm6",8);
-        &call   ("_vpaes_schedule_mangle");     # save key n
-        &call   ("_vpaes_schedule_192_smear");
-        &call   ("_vpaes_schedule_mangle");     # save key n+1
-        &call   ("_vpaes_schedule_round");
-        &dec    ($round);
-        &jz     (&label("schedule_mangle_last"));
-        &call   ("_vpaes_schedule_mangle");     # save key n+2
-        &call   ("_vpaes_schedule_192_smear");
-        &jmp    (&label("loop_schedule_192"));
-##
-##  .aes_schedule_256
-##
-##  256-bit specific part of key schedule.
-##
-##  The structure here is very similar to the 128-bit
-##  schedule, but with an additional "low side" in
-##  %xmm6.  The low side's rounds are the same as the
-##  high side's, except no rcon and no rotation.
-##
-&set_label("schedule_256",16);
-        &movdqu ("xmm0",&QWP(16,$inp));         # load key part 2 (unaligned)
-        &call   ("_vpaes_schedule_transform");  # input transform       
-        &mov    ($round,7);
-&set_label("loop_schedule_256");
-        &call   ("_vpaes_schedule_mangle");     # output low result
-        &movdqa ("xmm6","xmm0");                # save cur_lo in xmm6
-        # high round
-        &call   ("_vpaes_schedule_round");
-        &dec    ($round);
-        &jz     (&label("schedule_mangle_last"));
-        &call   ("_vpaes_schedule_mangle");     
-        # low round. swap xmm7 and xmm6
-        &pshufd ("xmm0","xmm0",0xFF);
-        &movdqa (&QWP(20,"esp"),"xmm7");
-        &movdqa ("xmm7","xmm6");
-        &call   ("_vpaes_schedule_low_round");
-        &movdqa ("xmm7",&QWP(20,"esp"));
-        &jmp    (&label("loop_schedule_256"));
-##
-##  .aes_schedule_mangle_last
-##
-##  Mangler for last round of key schedule
-##  Mangles %xmm0
-##    when encrypting, outputs out(%xmm0) ^ 63
-##    when decrypting, outputs unskew(%xmm0)
-##
-##  Always called right before return... jumps to cleanup and exits
-##
-&set_label("schedule_mangle_last",16);
-        # schedule last round key from xmm0
-        &lea    ($base,&DWP($k_deskew,$const));
-        &test   ($out,$out);
-        &jnz    (&label("schedule_mangle_last_dec"));
-        # encrypting
-        &movdqa ("xmm1",&QWP($k_sr,$const,$magic));
-        &pshufb ("xmm0","xmm1");                # output permute
-        &lea    ($base,&DWP($k_opt,$const));    # prepare to output transform
-        &add    ($key,32);
-&set_label("schedule_mangle_last_dec");
-        &add    ($key,-16);
-        &pxor   ("xmm0",&QWP($k_s63,$const));
-        &call   ("_vpaes_schedule_transform");  # output transform
-        &movdqu (&QWP(0,$key),"xmm0");          # save last key
-        # cleanup
-        &pxor   ("xmm0","xmm0");
-        &pxor   ("xmm1","xmm1");
-        &pxor   ("xmm2","xmm2");
-        &pxor   ("xmm3","xmm3");
-        &pxor   ("xmm4","xmm4");
-        &pxor   ("xmm5","xmm5");
-        &pxor   ("xmm6","xmm6");
-        &pxor   ("xmm7","xmm7");
-        &ret    ();
-&function_end_B("_vpaes_schedule_core");
-##
-##  .aes_schedule_192_smear
-##
-##  Smear the short, low side in the 192-bit key schedule.
-##
-##  Inputs:
-##    %xmm7: high side, b  a  x  y
-##    %xmm6:  low side, d  c  0  0
-##    %xmm13: 0
-##
-##  Outputs:
-##    %xmm6: b+c+d  b+c  0  0
-##    %xmm0: b+c+d  b+c  b  a
-##
-&function_begin_B("_vpaes_schedule_192_smear");
-        &pshufd ("xmm0","xmm6",0x80);           # d c 0 0 -> c 0 0 0
-        &pxor   ("xmm6","xmm0");                # -> c+d c 0 0
-        &pshufd ("xmm0","xmm7",0xFE);           # b a _ _ -> b b b a
-        &pxor   ("xmm6","xmm0");                # -> b+c+d b+c b a
-        &movdqa ("xmm0","xmm6");
-        &pxor   ("xmm1","xmm1");
-        &movhlps("xmm6","xmm1");                # clobber low side with zeros
-        &ret    ();
-&function_end_B("_vpaes_schedule_192_smear");
-##
-##  .aes_schedule_round
-##
-##  Runs one main round of the key schedule on %xmm0, %xmm7
-##
-##  Specifically, runs subbytes on the high dword of %xmm0
-##  then rotates it by one byte and xors into the low dword of
-##  %xmm7.
-##
-##  Adds rcon from low byte of %xmm8, then rotates %xmm8 for
-##  next rcon.
-##
-##  Smears the dwords of %xmm7 by xoring the low into the
-##  second low, result into third, result into highest.
-##
-##  Returns results in %xmm7 = %xmm0.
-##  Clobbers %xmm1-%xmm5.
-##
-&function_begin_B("_vpaes_schedule_round");
-        # extract rcon from xmm8
-        &movdqa ("xmm2",&QWP(8,"esp"));         # xmm8
-        &pxor   ("xmm1","xmm1");
-        &palignr("xmm1","xmm2",15);
-        &palignr("xmm2","xmm2",15);
-        &pxor   ("xmm7","xmm1");
-        # rotate
-        &pshufd ("xmm0","xmm0",0xFF);
-        &palignr("xmm0","xmm0",1);
-        # fall through...
-        &movdqa (&QWP(8,"esp"),"xmm2");         # xmm8
-        # low round: same as high round, but no rotation and no rcon.
-&set_label("_vpaes_schedule_low_round");
-        # smear xmm7
-        &movdqa ("xmm1","xmm7");
-        &pslldq ("xmm7",4);
-        &pxor   ("xmm7","xmm1");
-        &movdqa ("xmm1","xmm7");
-        &pslldq ("xmm7",8);
-        &pxor   ("xmm7","xmm1");
-        &pxor   ("xmm7",&QWP($k_s63,$const));
-        # subbyte
-        &movdqa ("xmm4",&QWP($k_s0F,$const));
-        &movdqa ("xmm5",&QWP($k_inv,$const));   # 4 : 1/j
-        &movdqa ("xmm1","xmm4");        
-        &pandn  ("xmm1","xmm0");
-        &psrld  ("xmm1",4);                     # 1 = i
-        &pand   ("xmm0","xmm4");                # 0 = k
-        &movdqa ("xmm2",&QWP($k_inv+16,$const));# 2 : a/k
-        &pshufb ("xmm2","xmm0");                # 2 = a/k
-        &pxor   ("xmm0","xmm1");                # 0 = j
-        &movdqa ("xmm3","xmm5");                # 3 : 1/i
-        &pshufb ("xmm3","xmm1");                # 3 = 1/i
-        &pxor   ("xmm3","xmm2");                # 3 = iak = 1/i + a/k
-        &movdqa ("xmm4","xmm5");                # 4 : 1/j
-        &pshufb ("xmm4","xmm0");                # 4 = 1/j
-        &pxor   ("xmm4","xmm2");                # 4 = jak = 1/j + a/k
-        &movdqa ("xmm2","xmm5");                # 2 : 1/iak
-        &pshufb ("xmm2","xmm3");                # 2 = 1/iak
-        &pxor   ("xmm2","xmm0");                # 2 = io
-        &movdqa ("xmm3","xmm5");                # 3 : 1/jak
-        &pshufb ("xmm3","xmm4");                # 3 = 1/jak
-        &pxor   ("xmm3","xmm1");                # 3 = jo
-        &movdqa ("xmm4",&QWP($k_sb1,$const));   # 4 : sbou
-        &pshufb ("xmm4","xmm2");                # 4 = sbou
-        &movdqa ("xmm0",&QWP($k_sb1+16,$const));# 0 : sbot
-        &pshufb ("xmm0","xmm3");                # 0 = sb1t
-        &pxor   ("xmm0","xmm4");                # 0 = sbox output
-        # add in smeared stuff
-        &pxor   ("xmm0","xmm7");
-        &movdqa ("xmm7","xmm0");
-        &ret    ();
-&function_end_B("_vpaes_schedule_round");
-##
-##  .aes_schedule_transform
-##
-##  Linear-transform %xmm0 according to tables at (%ebx)
-##
-##  Output in %xmm0
-##  Clobbers %xmm1, %xmm2
-##
-&function_begin_B("_vpaes_schedule_transform");
-        &movdqa ("xmm2",&QWP($k_s0F,$const));
-        &movdqa ("xmm1","xmm2");
-        &pandn  ("xmm1","xmm0");
-        &psrld  ("xmm1",4);
-        &pand   ("xmm0","xmm2");
-        &movdqa ("xmm2",&QWP(0,$base));
-        &pshufb ("xmm2","xmm0");
-        &movdqa ("xmm0",&QWP(16,$base));
-        &pshufb ("xmm0","xmm1");
-        &pxor   ("xmm0","xmm2");
-        &ret    ();
-&function_end_B("_vpaes_schedule_transform");
-##
-##  .aes_schedule_mangle
-##
-##  Mangle xmm0 from (basis-transformed) standard version
-##  to our version.
-##
-##  On encrypt,
-##    xor with 0x63
-##    multiply by circulant 0,1,1,1
-##    apply shiftrows transform
-##
-##  On decrypt,
-##    xor with 0x63
-##    multiply by "inverse mixcolumns" circulant E,B,D,9
-##    deskew
-##    apply shiftrows transform
-##
-##
-##  Writes out to (%edx), and increments or decrements it
-##  Keeps track of round number mod 4 in %ecx
-##  Preserves xmm0
-##  Clobbers xmm1-xmm5
-##
-&function_begin_B("_vpaes_schedule_mangle");
-        &movdqa ("xmm4","xmm0");        # save xmm0 for later
-        &movdqa ("xmm5",&QWP($k_mc_forward,$const));
-        &test   ($out,$out);
-        &jnz    (&label("schedule_mangle_dec"));
-        # encrypting
-        &add    ($key,16);
-        &pxor   ("xmm4",&QWP($k_s63,$const));
-        &pshufb ("xmm4","xmm5");
-        &movdqa ("xmm3","xmm4");
-        &pshufb ("xmm4","xmm5");
-        &pxor   ("xmm3","xmm4");
-        &pshufb ("xmm4","xmm5");
-        &pxor   ("xmm3","xmm4");
-        &jmp    (&label("schedule_mangle_both"));
-&set_label("schedule_mangle_dec",16);
-        # inverse mix columns
-        &movdqa ("xmm2",&QWP($k_s0F,$const));
-        &lea    ($inp,&DWP($k_dksd,$const));
-        &movdqa ("xmm1","xmm2");
-        &pandn  ("xmm1","xmm4");
-        &psrld  ("xmm1",4);                     # 1 = hi
-        &pand   ("xmm4","xmm2");                # 4 = lo
-        &movdqa ("xmm2",&QWP(0,$inp));
-        &pshufb ("xmm2","xmm4");
-        &movdqa ("xmm3",&QWP(0x10,$inp));
-        &pshufb ("xmm3","xmm1");
-        &pxor   ("xmm3","xmm2");
-        &pshufb ("xmm3","xmm5");
-        &movdqa ("xmm2",&QWP(0x20,$inp));
-        &pshufb ("xmm2","xmm4");
-        &pxor   ("xmm2","xmm3");
-        &movdqa ("xmm3",&QWP(0x30,$inp));
-        &pshufb ("xmm3","xmm1");
-        &pxor   ("xmm3","xmm2");
-        &pshufb ("xmm3","xmm5");
-        &movdqa ("xmm2",&QWP(0x40,$inp));
-        &pshufb ("xmm2","xmm4");
-        &pxor   ("xmm2","xmm3");
-        &movdqa ("xmm3",&QWP(0x50,$inp));
-        &pshufb ("xmm3","xmm1");
-        &pxor   ("xmm3","xmm2");
-        &pshufb ("xmm3","xmm5");
-        &movdqa ("xmm2",&QWP(0x60,$inp));
-        &pshufb ("xmm2","xmm4");
-        &pxor   ("xmm2","xmm3");
-        &movdqa ("xmm3",&QWP(0x70,$inp));
-        &pshufb ("xmm3","xmm1");
-        &pxor   ("xmm3","xmm2");
-        &add    ($key,-16);
-&set_label("schedule_mangle_both");
-        &movdqa ("xmm1",&QWP($k_sr,$const,$magic));
-        &pshufb ("xmm3","xmm1");
-        &add    ($magic,-16);
-        &and    ($magic,0x30);
-        &movdqu (&QWP(0,$key),"xmm3");
-        &ret    ();
-&function_end_B("_vpaes_schedule_mangle");
-#
-# Interface to OpenSSL
-#
-&function_begin("${PREFIX}_set_encrypt_key");
-        &mov    ($inp,&wparam(0));              # inp
-        &lea    ($base,&DWP(-56,"esp"));
-        &mov    ($round,&wparam(1));            # bits
-        &and    ($base,-16);
-        &mov    ($key,&wparam(2));              # key
-        &xchg   ($base,"esp");                  # alloca
-        &mov    (&DWP(48,"esp"),$base);
-        &mov    ($base,$round);
-        &shr    ($base,5);
-        &add    ($base,5);
-        &mov    (&DWP(240,$key),$base);         # AES_KEY->rounds = nbits/32+5;
-        &mov    ($magic,0x30);
-        &mov    ($out,0);
-        &picsetup($const);
-        &picsymbol($const, &label("_vpaes_consts"), $const);
-        &lea    ($const,&DWP(0x30,$const))
-        &call   ("_vpaes_schedule_core");
-        &mov    ("esp",&DWP(48,"esp"));
-        &xor    ("eax","eax");
-&function_end("${PREFIX}_set_encrypt_key");
-&function_begin("${PREFIX}_set_decrypt_key");
-        &mov    ($inp,&wparam(0));              # inp
-        &lea    ($base,&DWP(-56,"esp"));
-        &mov    ($round,&wparam(1));            # bits
-        &and    ($base,-16);
-        &mov    ($key,&wparam(2));              # key
-        &xchg   ($base,"esp");                  # alloca
-        &mov    (&DWP(48,"esp"),$base);
-        &mov    ($base,$round);
-        &shr    ($base,5);
-        &add    ($base,5);
-        &mov    (&DWP(240,$key),$base); # AES_KEY->rounds = nbits/32+5;
-        &shl    ($base,4);
-        &lea    ($key,&DWP(16,$key,$base));
-        &mov    ($out,1);
-        &mov    ($magic,$round);
-        &shr    ($magic,1);
-        &and    ($magic,32);
-        &xor    ($magic,32);                    # nbist==192?0:32;
-        &picsetup($const);
-        &picsymbol($const, &label("_vpaes_consts"), $const);
-        &lea    ($const,&DWP(0x30,$const))
-        &call   ("_vpaes_schedule_core");
-        &mov    ("esp",&DWP(48,"esp"));
-        &xor    ("eax","eax");
-&function_end("${PREFIX}_set_decrypt_key");
-&function_begin("${PREFIX}_encrypt");
-        &picsetup($const);
-        &picsymbol($const, &label("_vpaes_consts"), $const);
-        &lea    ($const,&DWP(0x30,$const))
-        &call   ("_vpaes_preheat");
-        &mov    ($inp,&wparam(0));              # inp
-        &lea    ($base,&DWP(-56,"esp"));
-        &mov    ($out,&wparam(1));              # out
-        &and    ($base,-16);
-        &mov    ($key,&wparam(2));              # key
-        &xchg   ($base,"esp");                  # alloca
-        &mov    (&DWP(48,"esp"),$base);
-        &movdqu ("xmm0",&QWP(0,$inp));
-        &call   ("_vpaes_encrypt_core");
-        &movdqu (&QWP(0,$out),"xmm0");
-        &mov    ("esp",&DWP(48,"esp"));
-&function_end("${PREFIX}_encrypt");
-&function_begin("${PREFIX}_decrypt");
-        &picsetup($const);
-        &picsymbol($const, &label("_vpaes_consts"), $const);
-        &lea    ($const,&DWP(0x30,$const))
-        &call   ("_vpaes_preheat");
-        &mov    ($inp,&wparam(0));              # inp
-        &lea    ($base,&DWP(-56,"esp"));
-        &mov    ($out,&wparam(1));              # out
-        &and    ($base,-16);
-        &mov    ($key,&wparam(2));              # key
-        &xchg   ($base,"esp");                  # alloca
-        &mov    (&DWP(48,"esp"),$base);
-        &movdqu ("xmm0",&QWP(0,$inp));
-        &call   ("_vpaes_decrypt_core");
-        &movdqu (&QWP(0,$out),"xmm0");
-        &mov    ("esp",&DWP(48,"esp"));
-&function_end("${PREFIX}_decrypt");
-&function_begin("${PREFIX}_cbc_encrypt");
-        &mov    ($inp,&wparam(0));              # inp
-        &mov    ($out,&wparam(1));              # out
-        &mov    ($round,&wparam(2));            # len
-        &mov    ($key,&wparam(3));              # key
-        &sub    ($round,16);
-        &jc     (&label("cbc_abort"));
-        &lea    ($base,&DWP(-56,"esp"));
-        &mov    ($const,&wparam(4));            # ivp
-        &and    ($base,-16);
-        &mov    ($magic,&wparam(5));            # enc
-        &xchg   ($base,"esp");                  # alloca
-        &movdqu ("xmm1",&QWP(0,$const));        # load IV
-        &sub    ($out,$inp);
-        &mov    (&DWP(48,"esp"),$base);
-        &mov    (&DWP(0,"esp"),$out);           # save out
-        &mov    (&DWP(4,"esp"),$key)            # save key
-        &mov    (&DWP(8,"esp"),$const);         # save ivp
-        &mov    ($out,$round);                  # $out works as $len
-        &picsetup($const);
-        &picsymbol($const, &label("_vpaes_consts"), $const);
-        &lea    ($const,&DWP(0x30,$const))
-        &call   ("_vpaes_preheat");
-        &cmp    ($magic,0);
-        &je     (&label("cbc_dec_loop"));
-        &jmp    (&label("cbc_enc_loop"));
-&set_label("cbc_enc_loop",16);
-        &movdqu ("xmm0",&QWP(0,$inp));          # load input
-        &pxor   ("xmm0","xmm1");                # inp^=iv
-        &call   ("_vpaes_encrypt_core");
-        &mov    ($base,&DWP(0,"esp"));          # restore out
-        &mov    ($key,&DWP(4,"esp"));           # restore key
-        &movdqa ("xmm1","xmm0");
-        &movdqu (&QWP(0,$base,$inp),"xmm0");    # write output
-        &lea    ($inp,&DWP(16,$inp));
-        &sub    ($out,16);
-        &jnc    (&label("cbc_enc_loop"));
-        &jmp    (&label("cbc_done"));
-&set_label("cbc_dec_loop",16);
-        &movdqu ("xmm0",&QWP(0,$inp));          # load input
-        &movdqa (&QWP(16,"esp"),"xmm1");        # save IV
-        &movdqa (&QWP(32,"esp"),"xmm0");        # save future IV
-        &call   ("_vpaes_decrypt_core");
-        &mov    ($base,&DWP(0,"esp"));          # restore out
-        &mov    ($key,&DWP(4,"esp"));           # restore key
-        &pxor   ("xmm0",&QWP(16,"esp"));        # out^=iv
-        &movdqa ("xmm1",&QWP(32,"esp"));        # load next IV
-        &movdqu (&QWP(0,$base,$inp),"xmm0");    # write output
-        &lea    ($inp,&DWP(16,$inp));
-        &sub    ($out,16);
-        &jnc    (&label("cbc_dec_loop"));
-&set_label("cbc_done");
-        &mov    ($base,&DWP(8,"esp"));          # restore ivp
-        &mov    ("esp",&DWP(48,"esp"));
-        &movdqu (&QWP(0,$base),"xmm1");         # write IV
-&set_label("cbc_abort");
-&function_end("${PREFIX}_cbc_encrypt");
-&asm_finish();
diff --git a/src/lib/libcrypto/aes/asm/vpaes-x86_64.pl b/src/lib/libcrypto/aes/asm/vpaes-x86_64.pl
deleted file mode 100644
index 7d92e8d8ca..0000000000
--- a/src/lib/libcrypto/aes/asm/vpaes-x86_64.pl
+++ /dev/null
@@ -1,1222 +0,0 @@
-#!/usr/bin/env perl
-######################################################################
-## Constant-time SSSE3 AES core implementation.
-## version 0.1
-##
-## By Mike Hamburg (Stanford University), 2009
-## Public domain.
-##
-## For details see http://shiftleft.org/papers/vector_aes/ and
-## http://crypto.stanford.edu/vpaes/.
-######################################################################
-# September 2011.
-#
-# Interface to OpenSSL as "almost" drop-in replacement for
-# aes-x86_64.pl. "Almost" refers to the fact that AES_cbc_encrypt
-# doesn't handle partial vectors (doesn't have to if called from
-# EVP only). "Drop-in" implies that this module doesn't share key
-# schedule structure with the original nor does it make assumption
-# about its alignment...
-#
-# Performance summary. aes-x86_64.pl column lists large-block CBC
-# encrypt/decrypt/with-hyper-threading-off(*) results in cycles per
-# byte processed with 128-bit key, and vpaes-x86_64.pl column -
-# [also large-block CBC] encrypt/decrypt.
-#
-#               aes-x86_64.pl           vpaes-x86_64.pl
-#
-# Core 2(**)    30.5/43.7/14.3          21.8/25.7(***)
-# Nehalem       30.5/42.2/14.6           9.8/11.8
-# Atom          63.9/79.0/32.1          64.0/84.8(***)
-#
-# (*)   "Hyper-threading" in the context refers rather to cache shared
-#       among multiple cores, than to specifically Intel HTT. As vast
-#       majority of contemporary cores share cache, slower code path
-#       is common place. In other words "with-hyper-threading-off"
-#       results are presented mostly for reference purposes.
-#
-# (**)  "Core 2" refers to initial 65nm design, a.k.a. Conroe.
-#
-# (***) Less impressive improvement on Core 2 and Atom is due to slow
-#       pshufb, yet it's respectable +40%/78% improvement on Core 2
-#       (as implied, over "hyper-threading-safe" code path).
-#
-#                                               <appro@openssl.org>
-$flavour = shift;
-$output  = shift;
-if ($flavour =~ /\./) { $output = $flavour; undef $flavour; }
-$win64=0; $win64=1 if ($flavour =~ /[nm]asm|mingw64/ || $output =~ /\.asm$/);
-$0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
-( $xlate="${dir}x86_64-xlate.pl" and -f $xlate ) or
-( $xlate="${dir}../../perlasm/x86_64-xlate.pl" and -f $xlate) or
-die "can't locate x86_64-xlate.pl";
-open OUT,"| \"$^X\" $xlate $flavour $output";
-*STDOUT=*OUT;
-$PREFIX="vpaes";
-$code.=<<___;
-.text
-##
-##  _aes_encrypt_core
-##
-##  AES-encrypt %xmm0.
-##
-##  Inputs:
-##     %xmm0 = input
-##     %xmm9-%xmm15 as in _vpaes_preheat
-##    (%rdx) = scheduled keys
-##
-##  Output in %xmm0
-##  Clobbers  %xmm1-%xmm5, %r9, %r10, %r11, %rax
-##  Preserves %xmm6 - %xmm8 so you get some local vectors
-##
-##
-.type   _vpaes_encrypt_core,\@abi-omnipotent
-.align 16
-_vpaes_encrypt_core:
-        _CET_ENDBR
-        mov     %rdx,   %r9
-        mov     \$16,   %r11
-        mov     240(%rdx),%eax
-        movdqa  %xmm9,  %xmm1
-        movdqa  .Lk_ipt(%rip), %xmm2    # iptlo
-        pandn   %xmm0,  %xmm1
-        movdqu  (%r9),  %xmm5           # round0 key
-        psrld   \$4,    %xmm1
-        pand    %xmm9,  %xmm0
-        pshufb  %xmm0,  %xmm2
-        movdqa  .Lk_ipt+16(%rip), %xmm0 # ipthi
-        pshufb  %xmm1,  %xmm0
-        pxor    %xmm5,  %xmm2
-        pxor    %xmm2,  %xmm0
-        add     \$16,   %r9
-        lea     .Lk_mc_backward(%rip),%r10
-        jmp     .Lenc_entry
-.align 16
-.Lenc_loop:
-        # middle of middle round
-        movdqa  %xmm13, %xmm4   # 4 : sb1u
-        pshufb  %xmm2,  %xmm4   # 4 = sb1u
-        pxor    %xmm5,  %xmm4   # 4 = sb1u + k
-        movdqa  %xmm12, %xmm0   # 0 : sb1t
-        pshufb  %xmm3,  %xmm0   # 0 = sb1t
-        pxor    %xmm4,  %xmm0   # 0 = A
-        movdqa  %xmm15, %xmm5   # 4 : sb2u
-        pshufb  %xmm2,  %xmm5   # 4 = sb2u
-        movdqa  -0x40(%r11,%r10), %xmm1         # .Lk_mc_forward[]
-        movdqa  %xmm14, %xmm2   # 2 : sb2t
-        pshufb  %xmm3,  %xmm2   # 2 = sb2t
-        pxor    %xmm5,  %xmm2   # 2 = 2A
-        movdqa  (%r11,%r10), %xmm4              # .Lk_mc_backward[]
-        movdqa  %xmm0,  %xmm3   # 3 = A
-        pshufb  %xmm1,  %xmm0   # 0 = B
-        add     \$16,   %r9     # next key
-        pxor    %xmm2,  %xmm0   # 0 = 2A+B
-        pshufb  %xmm4,  %xmm3   # 3 = D
-        add     \$16,   %r11    # next mc
-        pxor    %xmm0,  %xmm3   # 3 = 2A+B+D
-        pshufb  %xmm1,  %xmm0   # 0 = 2B+C
-        and     \$0x30, %r11    # ... mod 4
-        pxor    %xmm3,  %xmm0   # 0 = 2A+3B+C+D
-        sub     \$1,%rax        # nr--
-.Lenc_entry:
-        # top of round
-        movdqa  %xmm9,  %xmm1   # 1 : i
-        pandn   %xmm0,  %xmm1   # 1 = i<<4
-        psrld   \$4,    %xmm1   # 1 = i
-        pand    %xmm9,  %xmm0   # 0 = k
-        movdqa  %xmm11, %xmm5   # 2 : a/k
-        pshufb  %xmm0,  %xmm5   # 2 = a/k
-        pxor    %xmm1,  %xmm0   # 0 = j
-        movdqa  %xmm10, %xmm3   # 3 : 1/i
-        pshufb  %xmm1,  %xmm3   # 3 = 1/i
-        pxor    %xmm5,  %xmm3   # 3 = iak = 1/i + a/k
-        movdqa  %xmm10, %xmm4   # 4 : 1/j
-        pshufb  %xmm0,  %xmm4   # 4 = 1/j
-        pxor    %xmm5,  %xmm4   # 4 = jak = 1/j + a/k
-        movdqa  %xmm10, %xmm2   # 2 : 1/iak
-        pshufb  %xmm3,  %xmm2   # 2 = 1/iak
-        pxor    %xmm0,  %xmm2   # 2 = io
-        movdqa  %xmm10, %xmm3   # 3 : 1/jak
-        movdqu  (%r9),  %xmm5
-        pshufb  %xmm4,  %xmm3   # 3 = 1/jak
-        pxor    %xmm1,  %xmm3   # 3 = jo
-        jnz     .Lenc_loop
-        # middle of last round
-        movdqa  -0x60(%r10), %xmm4      # 3 : sbou      .Lk_sbo
-        movdqa  -0x50(%r10), %xmm0      # 0 : sbot      .Lk_sbo+16
-        pshufb  %xmm2,  %xmm4   # 4 = sbou
-        pxor    %xmm5,  %xmm4   # 4 = sb1u + k
-        pshufb  %xmm3,  %xmm0   # 0 = sb1t
-        movdqa  0x40(%r11,%r10), %xmm1          # .Lk_sr[]
-        pxor    %xmm4,  %xmm0   # 0 = A
-        pshufb  %xmm1,  %xmm0
-        ret
-.size   _vpaes_encrypt_core,.-_vpaes_encrypt_core
-        
-##
-##  Decryption core
-##
-##  Same API as encryption core.
-##
-.type   _vpaes_decrypt_core,\@abi-omnipotent
-.align  16
-_vpaes_decrypt_core:
-        _CET_ENDBR
-        mov     %rdx,   %r9             # load key
-        mov     240(%rdx),%eax
-        movdqa  %xmm9,  %xmm1
-        movdqa  .Lk_dipt(%rip), %xmm2   # iptlo
-        pandn   %xmm0,  %xmm1
-        mov     %rax,   %r11
-        psrld   \$4,    %xmm1
-        movdqu  (%r9),  %xmm5           # round0 key
-        shl     \$4,    %r11
-        pand    %xmm9,  %xmm0
-        pshufb  %xmm0,  %xmm2
-        movdqa  .Lk_dipt+16(%rip), %xmm0 # ipthi
-        xor     \$0x30, %r11
-        lea     .Lk_dsbd(%rip),%r10
-        pshufb  %xmm1,  %xmm0
-        and     \$0x30, %r11
-        pxor    %xmm5,  %xmm2
-        movdqa  .Lk_mc_forward+48(%rip), %xmm5
-        pxor    %xmm2,  %xmm0
-        add     \$16,   %r9
-        add     %r10,   %r11
-        jmp     .Ldec_entry
-.align 16
-.Ldec_loop:
-##
-##  Inverse mix columns
-##
-        movdqa  -0x20(%r10),%xmm4       # 4 : sb9u
-        pshufb  %xmm2,  %xmm4           # 4 = sb9u
-        pxor    %xmm0,  %xmm4
-        movdqa  -0x10(%r10),%xmm0       # 0 : sb9t
-        pshufb  %xmm3,  %xmm0           # 0 = sb9t
-        pxor    %xmm4,  %xmm0           # 0 = ch
-        add     \$16, %r9               # next round key
-        pshufb  %xmm5,  %xmm0           # MC ch
-        movdqa  0x00(%r10),%xmm4        # 4 : sbdu
-        pshufb  %xmm2,  %xmm4           # 4 = sbdu
-        pxor    %xmm0,  %xmm4           # 4 = ch
-        movdqa  0x10(%r10),%xmm0        # 0 : sbdt
-        pshufb  %xmm3,  %xmm0           # 0 = sbdt
-        pxor    %xmm4,  %xmm0           # 0 = ch
-        sub     \$1,%rax                # nr--
-        
-        pshufb  %xmm5,  %xmm0           # MC ch
-        movdqa  0x20(%r10),%xmm4        # 4 : sbbu
-        pshufb  %xmm2,  %xmm4           # 4 = sbbu
-        pxor    %xmm0,  %xmm4           # 4 = ch
-        movdqa  0x30(%r10),%xmm0        # 0 : sbbt
-        pshufb  %xmm3,  %xmm0           # 0 = sbbt
-        pxor    %xmm4,  %xmm0           # 0 = ch
-        
-        pshufb  %xmm5,  %xmm0           # MC ch
-        movdqa  0x40(%r10),%xmm4        # 4 : sbeu
-        pshufb  %xmm2,  %xmm4           # 4 = sbeu
-        pxor    %xmm0,  %xmm4           # 4 = ch
-        movdqa  0x50(%r10),%xmm0        # 0 : sbet
-        pshufb  %xmm3,  %xmm0           # 0 = sbet
-        pxor    %xmm4,  %xmm0           # 0 = ch
-        palignr \$12,   %xmm5,  %xmm5
-        
-.Ldec_entry:
-        # top of round
-        movdqa  %xmm9,  %xmm1   # 1 : i
-        pandn   %xmm0,  %xmm1   # 1 = i<<4
-        psrld   \$4,    %xmm1   # 1 = i
-        pand    %xmm9,  %xmm0   # 0 = k
-        movdqa  %xmm11, %xmm2   # 2 : a/k
-        pshufb  %xmm0,  %xmm2   # 2 = a/k
-        pxor    %xmm1,  %xmm0   # 0 = j
-        movdqa  %xmm10, %xmm3   # 3 : 1/i
-        pshufb  %xmm1,  %xmm3   # 3 = 1/i
-        pxor    %xmm2,  %xmm3   # 3 = iak = 1/i + a/k
-        movdqa  %xmm10, %xmm4   # 4 : 1/j
-        pshufb  %xmm0,  %xmm4   # 4 = 1/j
-        pxor    %xmm2,  %xmm4   # 4 = jak = 1/j + a/k
-        movdqa  %xmm10, %xmm2   # 2 : 1/iak
-        pshufb  %xmm3,  %xmm2   # 2 = 1/iak
-        pxor    %xmm0,  %xmm2   # 2 = io
-        movdqa  %xmm10, %xmm3   # 3 : 1/jak
-        pshufb  %xmm4,  %xmm3   # 3 = 1/jak
-        pxor    %xmm1,  %xmm3   # 3 = jo
-        movdqu  (%r9),  %xmm0
-        jnz     .Ldec_loop
-        # middle of last round
-        movdqa  0x60(%r10), %xmm4       # 3 : sbou
-        pshufb  %xmm2,  %xmm4   # 4 = sbou
-        pxor    %xmm0,  %xmm4   # 4 = sb1u + k
-        movdqa  0x70(%r10), %xmm0       # 0 : sbot
-        movdqa  -0x160(%r11), %xmm2     # .Lk_sr-.Lk_dsbd=-0x160
-        pshufb  %xmm3,  %xmm0   # 0 = sb1t
-        pxor    %xmm4,  %xmm0   # 0 = A
-        pshufb  %xmm2,  %xmm0
-        ret
-.size   _vpaes_decrypt_core,.-_vpaes_decrypt_core
-########################################################
-##                                                    ##
-##                  AES key schedule                  ##
-##                                                    ##
-########################################################
-.type   _vpaes_schedule_core,\@abi-omnipotent
-.align  16
-_vpaes_schedule_core:
-        _CET_ENDBR
-        # rdi = key
-        # rsi = size in bits
-        # rdx = buffer
-        # rcx = direction.  0=encrypt, 1=decrypt
-        call    _vpaes_preheat          # load the tables
-        movdqa  .Lk_rcon(%rip), %xmm8   # load rcon
-        movdqu  (%rdi), %xmm0           # load key (unaligned)
-        # input transform
-        movdqa  %xmm0,  %xmm3
-        lea     .Lk_ipt(%rip), %r11
-        call    _vpaes_schedule_transform
-        movdqa  %xmm0,  %xmm7
-        lea     .Lk_sr(%rip),%r10
-        test    %rcx,   %rcx
-        jnz     .Lschedule_am_decrypting
-        # encrypting, output zeroth round key after transform
-        movdqu  %xmm0,  (%rdx)
-        jmp     .Lschedule_go
-.Lschedule_am_decrypting:
-        # decrypting, output zeroth round key after shiftrows
-        movdqa  (%r8,%r10),%xmm1
-        pshufb  %xmm1,  %xmm3
-        movdqu  %xmm3,  (%rdx)
-        xor     \$0x30, %r8
-.Lschedule_go:
-        cmp     \$192,  %esi
-        ja      .Lschedule_256
-        je      .Lschedule_192
-        # 128: fall though
-##
-##  .schedule_128
-##
-##  128-bit specific part of key schedule.
-##
-##  This schedule is really simple, because all its parts
-##  are accomplished by the subroutines.
-##
-.Lschedule_128:
-        mov     \$10, %esi
-        
-.Loop_schedule_128:
-        call    _vpaes_schedule_round
-        dec     %rsi
-        jz      .Lschedule_mangle_last
-        call    _vpaes_schedule_mangle  # write output
-        jmp     .Loop_schedule_128
-##
-##  .aes_schedule_192
-##
-##  192-bit specific part of key schedule.
-##
-##  The main body of this schedule is the same as the 128-bit
-##  schedule, but with more smearing.  The long, high side is
-##  stored in %xmm7 as before, and the short, low side is in
-##  the high bits of %xmm6.
-##
-##  This schedule is somewhat nastier, however, because each
-##  round produces 192 bits of key material, or 1.5 round keys.
-##  Therefore, on each cycle we do 2 rounds and produce 3 round
-##  keys.
-##
-.align  16
-.Lschedule_192:
-        movdqu  8(%rdi),%xmm0           # load key part 2 (very unaligned)
-        call    _vpaes_schedule_transform       # input transform
-        movdqa  %xmm0,  %xmm6           # save short part
-        pxor    %xmm4,  %xmm4           # clear 4
-        movhlps %xmm4,  %xmm6           # clobber low side with zeros
-        mov     \$4,    %esi
-.Loop_schedule_192:
-        call    _vpaes_schedule_round
-        palignr \$8,%xmm6,%xmm0 
-        call    _vpaes_schedule_mangle  # save key n
-        call    _vpaes_schedule_192_smear
-        call    _vpaes_schedule_mangle  # save key n+1
-        call    _vpaes_schedule_round
-        dec     %rsi
-        jz      .Lschedule_mangle_last
-        call    _vpaes_schedule_mangle  # save key n+2
-        call    _vpaes_schedule_192_smear
-        jmp     .Loop_schedule_192
-##
-##  .aes_schedule_256
-##
-##  256-bit specific part of key schedule.
-##
-##  The structure here is very similar to the 128-bit
-##  schedule, but with an additional "low side" in
-##  %xmm6.  The low side's rounds are the same as the
-##  high side's, except no rcon and no rotation.
-##
-.align  16
-.Lschedule_256:
-        movdqu  16(%rdi),%xmm0          # load key part 2 (unaligned)
-        call    _vpaes_schedule_transform       # input transform
-        mov     \$7, %esi
-        
-.Loop_schedule_256:
-        call    _vpaes_schedule_mangle  # output low result
-        movdqa  %xmm0,  %xmm6           # save cur_lo in xmm6
-        # high round
-        call    _vpaes_schedule_round
-        dec     %rsi
-        jz      .Lschedule_mangle_last
-        call    _vpaes_schedule_mangle  
-        # low round. swap xmm7 and xmm6
-        pshufd  \$0xFF, %xmm0,  %xmm0
-        movdqa  %xmm7,  %xmm5
-        movdqa  %xmm6,  %xmm7
-        call    _vpaes_schedule_low_round
-        movdqa  %xmm5,  %xmm7
-        
-        jmp     .Loop_schedule_256
-        
-##
-##  .aes_schedule_mangle_last
-##
-##  Mangler for last round of key schedule
-##  Mangles %xmm0
-##    when encrypting, outputs out(%xmm0) ^ 63
-##    when decrypting, outputs unskew(%xmm0)
-##
-##  Always called right before return... jumps to cleanup and exits
-##
-.align  16
-.Lschedule_mangle_last:
-        # schedule last round key from xmm0
-        lea     .Lk_deskew(%rip),%r11   # prepare to deskew
-        test    %rcx,   %rcx
-        jnz     .Lschedule_mangle_last_dec
-        # encrypting
-        movdqa  (%r8,%r10),%xmm1
-        pshufb  %xmm1,  %xmm0           # output permute
-        lea     .Lk_opt(%rip),  %r11    # prepare to output transform
-        add     \$32,   %rdx
-.Lschedule_mangle_last_dec:
-        add     \$-16,  %rdx
-        pxor    .Lk_s63(%rip),  %xmm0
-        call    _vpaes_schedule_transform # output transform
-        movdqu  %xmm0,  (%rdx)          # save last key
-        # cleanup
-        pxor    %xmm0,  %xmm0
-        pxor    %xmm1,  %xmm1
-        pxor    %xmm2,  %xmm2
-        pxor    %xmm3,  %xmm3
-        pxor    %xmm4,  %xmm4
-        pxor    %xmm5,  %xmm5
-        pxor    %xmm6,  %xmm6
-        pxor    %xmm7,  %xmm7
-        ret
-.size   _vpaes_schedule_core,.-_vpaes_schedule_core
-##
-##  .aes_schedule_192_smear
-##
-##  Smear the short, low side in the 192-bit key schedule.
-##
-##  Inputs:
-##    %xmm7: high side, b  a  x  y
-##    %xmm6:  low side, d  c  0  0
-##    %xmm13: 0
-##
-##  Outputs:
-##    %xmm6: b+c+d  b+c  0  0
-##    %xmm0: b+c+d  b+c  b  a
-##
-.type   _vpaes_schedule_192_smear,\@abi-omnipotent
-.align  16
-_vpaes_schedule_192_smear:
-        _CET_ENDBR
-        pshufd  \$0x80, %xmm6,  %xmm0   # d c 0 0 -> c 0 0 0
-        pxor    %xmm0,  %xmm6           # -> c+d c 0 0
-        pshufd  \$0xFE, %xmm7,  %xmm0   # b a _ _ -> b b b a
-        pxor    %xmm0,  %xmm6           # -> b+c+d b+c b a
-        movdqa  %xmm6,  %xmm0
-        pxor    %xmm1,  %xmm1
-        movhlps %xmm1,  %xmm6           # clobber low side with zeros
-        ret
-.size   _vpaes_schedule_192_smear,.-_vpaes_schedule_192_smear
-##
-##  .aes_schedule_round
-##
-##  Runs one main round of the key schedule on %xmm0, %xmm7
-##
-##  Specifically, runs subbytes on the high dword of %xmm0
-##  then rotates it by one byte and xors into the low dword of
-##  %xmm7.
-##
-##  Adds rcon from low byte of %xmm8, then rotates %xmm8 for
-##  next rcon.
-##
-##  Smears the dwords of %xmm7 by xoring the low into the
-##  second low, result into third, result into highest.
-##
-##  Returns results in %xmm7 = %xmm0.
-##  Clobbers %xmm1-%xmm4, %r11.
-##
-.type   _vpaes_schedule_round,\@abi-omnipotent
-.align  16
-_vpaes_schedule_round:
-        _CET_ENDBR
-        # extract rcon from xmm8
-        pxor    %xmm1,  %xmm1
-        palignr \$15,   %xmm8,  %xmm1
-        palignr \$15,   %xmm8,  %xmm8
-        pxor    %xmm1,  %xmm7
-        # rotate
-        pshufd  \$0xFF, %xmm0,  %xmm0
-        palignr \$1,    %xmm0,  %xmm0
-        
-        # fall through...
-        
-        # low round: same as high round, but no rotation and no rcon.
-_vpaes_schedule_low_round:
-        # smear xmm7
-        movdqa  %xmm7,  %xmm1
-        pslldq  \$4,    %xmm7
-        pxor    %xmm1,  %xmm7
-        movdqa  %xmm7,  %xmm1
-        pslldq  \$8,    %xmm7
-        pxor    %xmm1,  %xmm7
-        pxor    .Lk_s63(%rip), %xmm7
-        # subbytes
-        movdqa  %xmm9,  %xmm1
-        pandn   %xmm0,  %xmm1
-        psrld   \$4,    %xmm1           # 1 = i
-        pand    %xmm9,  %xmm0           # 0 = k
-        movdqa  %xmm11, %xmm2           # 2 : a/k
-        pshufb  %xmm0,  %xmm2           # 2 = a/k
-        pxor    %xmm1,  %xmm0           # 0 = j
-        movdqa  %xmm10, %xmm3           # 3 : 1/i
-        pshufb  %xmm1,  %xmm3           # 3 = 1/i
-        pxor    %xmm2,  %xmm3           # 3 = iak = 1/i + a/k
-        movdqa  %xmm10, %xmm4           # 4 : 1/j
-        pshufb  %xmm0,  %xmm4           # 4 = 1/j
-        pxor    %xmm2,  %xmm4           # 4 = jak = 1/j + a/k
-        movdqa  %xmm10, %xmm2           # 2 : 1/iak
-        pshufb  %xmm3,  %xmm2           # 2 = 1/iak
-        pxor    %xmm0,  %xmm2           # 2 = io
-        movdqa  %xmm10, %xmm3           # 3 : 1/jak
-        pshufb  %xmm4,  %xmm3           # 3 = 1/jak
-        pxor    %xmm1,  %xmm3           # 3 = jo
-        movdqa  %xmm13, %xmm4           # 4 : sbou
-        pshufb  %xmm2,  %xmm4           # 4 = sbou
-        movdqa  %xmm12, %xmm0           # 0 : sbot
-        pshufb  %xmm3,  %xmm0           # 0 = sb1t
-        pxor    %xmm4,  %xmm0           # 0 = sbox output
-        # add in smeared stuff
-        pxor    %xmm7,  %xmm0   
-        movdqa  %xmm0,  %xmm7
-        ret
-.size   _vpaes_schedule_round,.-_vpaes_schedule_round
-##
-##  .aes_schedule_transform
-##
-##  Linear-transform %xmm0 according to tables at (%r11)
-##
-##  Requires that %xmm9 = 0x0F0F... as in preheat
-##  Output in %xmm0
-##  Clobbers %xmm1, %xmm2
-##
-.type   _vpaes_schedule_transform,\@abi-omnipotent
-.align  16
-_vpaes_schedule_transform:
-        _CET_ENDBR
-        movdqa  %xmm9,  %xmm1
-        pandn   %xmm0,  %xmm1
-        psrld   \$4,    %xmm1
-        pand    %xmm9,  %xmm0
-        movdqa  (%r11), %xmm2   # lo
-        pshufb  %xmm0,  %xmm2
-        movdqa  16(%r11), %xmm0 # hi
-        pshufb  %xmm1,  %xmm0
-        pxor    %xmm2,  %xmm0
-        ret
-.size   _vpaes_schedule_transform,.-_vpaes_schedule_transform
-##
-##  .aes_schedule_mangle
-##
-##  Mangle xmm0 from (basis-transformed) standard version
-##  to our version.
-##
-##  On encrypt,
-##    xor with 0x63
-##    multiply by circulant 0,1,1,1
-##    apply shiftrows transform
-##
-##  On decrypt,
-##    xor with 0x63
-##    multiply by "inverse mixcolumns" circulant E,B,D,9
-##    deskew
-##    apply shiftrows transform
-##
-##
-##  Writes out to (%rdx), and increments or decrements it
-##  Keeps track of round number mod 4 in %r8
-##  Preserves xmm0
-##  Clobbers xmm1-xmm5
-##
-.type   _vpaes_schedule_mangle,\@abi-omnipotent
-.align  16
-_vpaes_schedule_mangle:
-        _CET_ENDBR
-        movdqa  %xmm0,  %xmm4   # save xmm0 for later
-        movdqa  .Lk_mc_forward(%rip),%xmm5
-        test    %rcx,   %rcx
-        jnz     .Lschedule_mangle_dec
-        # encrypting
-        add     \$16,   %rdx
-        pxor    .Lk_s63(%rip),%xmm4
-        pshufb  %xmm5,  %xmm4
-        movdqa  %xmm4,  %xmm3
-        pshufb  %xmm5,  %xmm4
-        pxor    %xmm4,  %xmm3
-        pshufb  %xmm5,  %xmm4
-        pxor    %xmm4,  %xmm3
-        jmp     .Lschedule_mangle_both
-.align  16
-.Lschedule_mangle_dec:
-        # inverse mix columns
-        lea     .Lk_dksd(%rip),%r11
-        movdqa  %xmm9,  %xmm1
-        pandn   %xmm4,  %xmm1
-        psrld   \$4,    %xmm1   # 1 = hi
-        pand    %xmm9,  %xmm4   # 4 = lo
-        movdqa  0x00(%r11), %xmm2
-        pshufb  %xmm4,  %xmm2
-        movdqa  0x10(%r11), %xmm3
-        pshufb  %xmm1,  %xmm3
-        pxor    %xmm2,  %xmm3
-        pshufb  %xmm5,  %xmm3
-        movdqa  0x20(%r11), %xmm2
-        pshufb  %xmm4,  %xmm2
-        pxor    %xmm3,  %xmm2
-        movdqa  0x30(%r11), %xmm3
-        pshufb  %xmm1,  %xmm3
-        pxor    %xmm2,  %xmm3
-        pshufb  %xmm5,  %xmm3
-        movdqa  0x40(%r11), %xmm2
-        pshufb  %xmm4,  %xmm2
-        pxor    %xmm3,  %xmm2
-        movdqa  0x50(%r11), %xmm3
-        pshufb  %xmm1,  %xmm3
-        pxor    %xmm2,  %xmm3
-        pshufb  %xmm5,  %xmm3
-        movdqa  0x60(%r11), %xmm2
-        pshufb  %xmm4,  %xmm2
-        pxor    %xmm3,  %xmm2
-        movdqa  0x70(%r11), %xmm3
-        pshufb  %xmm1,  %xmm3
-        pxor    %xmm2,  %xmm3
-        add     \$-16,  %rdx
-.Lschedule_mangle_both:
-        movdqa  (%r8,%r10),%xmm1
-        pshufb  %xmm1,%xmm3
-        add     \$-16,  %r8
-        and     \$0x30, %r8
-        movdqu  %xmm3,  (%rdx)
-        ret
-.size   _vpaes_schedule_mangle,.-_vpaes_schedule_mangle
-#
-# Interface to OpenSSL
-#
-.globl  ${PREFIX}_set_encrypt_key
-.type   ${PREFIX}_set_encrypt_key,\@function,3
-.align  16
-${PREFIX}_set_encrypt_key:
-        _CET_ENDBR
-___
-$code.=<<___ if ($win64);
-        lea     -0xb8(%rsp),%rsp
-        movaps  %xmm6,0x10(%rsp)
-        movaps  %xmm7,0x20(%rsp)
-        movaps  %xmm8,0x30(%rsp)
-        movaps  %xmm9,0x40(%rsp)
-        movaps  %xmm10,0x50(%rsp)
-        movaps  %xmm11,0x60(%rsp)
-        movaps  %xmm12,0x70(%rsp)
-        movaps  %xmm13,0x80(%rsp)
-        movaps  %xmm14,0x90(%rsp)
-        movaps  %xmm15,0xa0(%rsp)
-.Lenc_key_body:
-___
-$code.=<<___;
-        mov     %esi,%eax
-        shr     \$5,%eax
-        add     \$5,%eax
-        mov     %eax,240(%rdx)  # AES_KEY->rounds = nbits/32+5;
-        mov     \$0,%ecx
-        mov     \$0x30,%r8d
-        call    _vpaes_schedule_core
-___
-$code.=<<___ if ($win64);
-        movaps  0x10(%rsp),%xmm6
-        movaps  0x20(%rsp),%xmm7
-        movaps  0x30(%rsp),%xmm8
-        movaps  0x40(%rsp),%xmm9
-        movaps  0x50(%rsp),%xmm10
-        movaps  0x60(%rsp),%xmm11
-        movaps  0x70(%rsp),%xmm12
-        movaps  0x80(%rsp),%xmm13
-        movaps  0x90(%rsp),%xmm14
-        movaps  0xa0(%rsp),%xmm15
-        lea     0xb8(%rsp),%rsp
-.Lenc_key_epilogue:
-___
-$code.=<<___;
-        xor     %eax,%eax
-        ret
-.size   ${PREFIX}_set_encrypt_key,.-${PREFIX}_set_encrypt_key
-.globl  ${PREFIX}_set_decrypt_key
-.type   ${PREFIX}_set_decrypt_key,\@function,3
-.align  16
-${PREFIX}_set_decrypt_key:
-        _CET_ENDBR
-___
-$code.=<<___ if ($win64);
-        lea     -0xb8(%rsp),%rsp
-        movaps  %xmm6,0x10(%rsp)
-        movaps  %xmm7,0x20(%rsp)
-        movaps  %xmm8,0x30(%rsp)
-        movaps  %xmm9,0x40(%rsp)
-        movaps  %xmm10,0x50(%rsp)
-        movaps  %xmm11,0x60(%rsp)
-        movaps  %xmm12,0x70(%rsp)
-        movaps  %xmm13,0x80(%rsp)
-        movaps  %xmm14,0x90(%rsp)
-        movaps  %xmm15,0xa0(%rsp)
-.Ldec_key_body:
-___
-$code.=<<___;
-        mov     %esi,%eax
-        shr     \$5,%eax
-        add     \$5,%eax
-        mov     %eax,240(%rdx)  # AES_KEY->rounds = nbits/32+5;
-        shl     \$4,%eax
-        lea     16(%rdx,%rax),%rdx
-        mov     \$1,%ecx
-        mov     %esi,%r8d
-        shr     \$1,%r8d
-        and     \$32,%r8d
-        xor     \$32,%r8d       # nbits==192?0:32
-        call    _vpaes_schedule_core
-___
-$code.=<<___ if ($win64);
-        movaps  0x10(%rsp),%xmm6
-        movaps  0x20(%rsp),%xmm7
-        movaps  0x30(%rsp),%xmm8
-        movaps  0x40(%rsp),%xmm9
-        movaps  0x50(%rsp),%xmm10
-        movaps  0x60(%rsp),%xmm11
-        movaps  0x70(%rsp),%xmm12
-        movaps  0x80(%rsp),%xmm13
-        movaps  0x90(%rsp),%xmm14
-        movaps  0xa0(%rsp),%xmm15
-        lea     0xb8(%rsp),%rsp
-.Ldec_key_epilogue:
-___
-$code.=<<___;
-        xor     %eax,%eax
-        ret
-.size   ${PREFIX}_set_decrypt_key,.-${PREFIX}_set_decrypt_key
-.globl  ${PREFIX}_encrypt
-.type   ${PREFIX}_encrypt,\@function,3
-.align  16
-${PREFIX}_encrypt:
-        _CET_ENDBR
-___
-$code.=<<___ if ($win64);
-        lea     -0xb8(%rsp),%rsp
-        movaps  %xmm6,0x10(%rsp)
-        movaps  %xmm7,0x20(%rsp)
-        movaps  %xmm8,0x30(%rsp)
-        movaps  %xmm9,0x40(%rsp)
-        movaps  %xmm10,0x50(%rsp)
-        movaps  %xmm11,0x60(%rsp)
-        movaps  %xmm12,0x70(%rsp)
-        movaps  %xmm13,0x80(%rsp)
-        movaps  %xmm14,0x90(%rsp)
-        movaps  %xmm15,0xa0(%rsp)
-.Lenc_body:
-___
-$code.=<<___;
-        movdqu  (%rdi),%xmm0
-        call    _vpaes_preheat
-        call    _vpaes_encrypt_core
-        movdqu  %xmm0,(%rsi)
-___
-$code.=<<___ if ($win64);
-        movaps  0x10(%rsp),%xmm6
-        movaps  0x20(%rsp),%xmm7
-        movaps  0x30(%rsp),%xmm8
-        movaps  0x40(%rsp),%xmm9
-        movaps  0x50(%rsp),%xmm10
-        movaps  0x60(%rsp),%xmm11
-        movaps  0x70(%rsp),%xmm12
-        movaps  0x80(%rsp),%xmm13
-        movaps  0x90(%rsp),%xmm14
-        movaps  0xa0(%rsp),%xmm15
-        lea     0xb8(%rsp),%rsp
-.Lenc_epilogue:
-___
-$code.=<<___;
-        ret
-.size   ${PREFIX}_encrypt,.-${PREFIX}_encrypt
-.globl  ${PREFIX}_decrypt
-.type   ${PREFIX}_decrypt,\@function,3
-.align  16
-${PREFIX}_decrypt:
-        _CET_ENDBR
-___
-$code.=<<___ if ($win64);
-        lea     -0xb8(%rsp),%rsp
-        movaps  %xmm6,0x10(%rsp)
-        movaps  %xmm7,0x20(%rsp)
-        movaps  %xmm8,0x30(%rsp)
-        movaps  %xmm9,0x40(%rsp)
-        movaps  %xmm10,0x50(%rsp)
-        movaps  %xmm11,0x60(%rsp)
-        movaps  %xmm12,0x70(%rsp)
-        movaps  %xmm13,0x80(%rsp)
-        movaps  %xmm14,0x90(%rsp)
-        movaps  %xmm15,0xa0(%rsp)
-.Ldec_body:
-___
-$code.=<<___;
-        movdqu  (%rdi),%xmm0
-        call    _vpaes_preheat
-        call    _vpaes_decrypt_core
-        movdqu  %xmm0,(%rsi)
-___
-$code.=<<___ if ($win64);
-        movaps  0x10(%rsp),%xmm6
-        movaps  0x20(%rsp),%xmm7
-        movaps  0x30(%rsp),%xmm8
-        movaps  0x40(%rsp),%xmm9
-        movaps  0x50(%rsp),%xmm10
-        movaps  0x60(%rsp),%xmm11
-        movaps  0x70(%rsp),%xmm12
-        movaps  0x80(%rsp),%xmm13
-        movaps  0x90(%rsp),%xmm14
-        movaps  0xa0(%rsp),%xmm15
-        lea     0xb8(%rsp),%rsp
-.Ldec_epilogue:
-___
-$code.=<<___;
-        ret
-.size   ${PREFIX}_decrypt,.-${PREFIX}_decrypt
-___
-{
-my ($inp,$out,$len,$key,$ivp,$enc)=("%rdi","%rsi","%rdx","%rcx","%r8","%r9");
-# void AES_cbc_encrypt (const void char *inp, unsigned char *out,
-#                       size_t length, const AES_KEY *key,
-#                       unsigned char *ivp,const int enc);
-$code.=<<___;
-.globl  ${PREFIX}_cbc_encrypt
-.type   ${PREFIX}_cbc_encrypt,\@function,6
-.align  16
-${PREFIX}_cbc_encrypt:
-        _CET_ENDBR
-        xchg    $key,$len
-___
-($len,$key)=($key,$len);
-$code.=<<___;
-        sub     \$16,$len
-        jc      .Lcbc_abort
-___
-$code.=<<___ if ($win64);
-        lea     -0xb8(%rsp),%rsp
-        movaps  %xmm6,0x10(%rsp)
-        movaps  %xmm7,0x20(%rsp)
-        movaps  %xmm8,0x30(%rsp)
-        movaps  %xmm9,0x40(%rsp)
-        movaps  %xmm10,0x50(%rsp)
-        movaps  %xmm11,0x60(%rsp)
-        movaps  %xmm12,0x70(%rsp)
-        movaps  %xmm13,0x80(%rsp)
-        movaps  %xmm14,0x90(%rsp)
-        movaps  %xmm15,0xa0(%rsp)
-.Lcbc_body:
-___
-$code.=<<___;
-        movdqu  ($ivp),%xmm6            # load IV
-        sub     $inp,$out
-        call    _vpaes_preheat
-        cmp     \$0,${enc}d
-        je      .Lcbc_dec_loop
-        jmp     .Lcbc_enc_loop
-.align  16
-.Lcbc_enc_loop:
-        movdqu  ($inp),%xmm0
-        pxor    %xmm6,%xmm0
-        call    _vpaes_encrypt_core
-        movdqa  %xmm0,%xmm6
-        movdqu  %xmm0,($out,$inp)
-        lea     16($inp),$inp
-        sub     \$16,$len
-        jnc     .Lcbc_enc_loop
-        jmp     .Lcbc_done
-.align  16
-.Lcbc_dec_loop:
-        movdqu  ($inp),%xmm0
-        movdqa  %xmm0,%xmm7
-        call    _vpaes_decrypt_core
-        pxor    %xmm6,%xmm0
-        movdqa  %xmm7,%xmm6
-        movdqu  %xmm0,($out,$inp)
-        lea     16($inp),$inp
-        sub     \$16,$len
-        jnc     .Lcbc_dec_loop
-.Lcbc_done:
-        movdqu  %xmm6,($ivp)            # save IV
-___
-$code.=<<___ if ($win64);
-        movaps  0x10(%rsp),%xmm6
-        movaps  0x20(%rsp),%xmm7
-        movaps  0x30(%rsp),%xmm8
-        movaps  0x40(%rsp),%xmm9
-        movaps  0x50(%rsp),%xmm10
-        movaps  0x60(%rsp),%xmm11
-        movaps  0x70(%rsp),%xmm12
-        movaps  0x80(%rsp),%xmm13
-        movaps  0x90(%rsp),%xmm14
-        movaps  0xa0(%rsp),%xmm15
-        lea     0xb8(%rsp),%rsp
-.Lcbc_epilogue:
-___
-$code.=<<___;
-.Lcbc_abort:
-        ret
-.size   ${PREFIX}_cbc_encrypt,.-${PREFIX}_cbc_encrypt
-___
-}
-$code.=<<___;
-##
-##  _aes_preheat
-##
-##  Fills register %r10 -> .aes_consts (so you can -fPIC)
-##  and %xmm9-%xmm15 as specified below.
-##
-.type   _vpaes_preheat,\@abi-omnipotent
-.align  16
-_vpaes_preheat:
-        _CET_ENDBR
-        lea     .Lk_s0F(%rip), %r10
-        movdqa  -0x20(%r10), %xmm10     # .Lk_inv
-        movdqa  -0x10(%r10), %xmm11     # .Lk_inv+16
-        movdqa  0x00(%r10), %xmm9       # .Lk_s0F
-        movdqa  0x30(%r10), %xmm13      # .Lk_sb1
-        movdqa  0x40(%r10), %xmm12      # .Lk_sb1+16
-        movdqa  0x50(%r10), %xmm15      # .Lk_sb2
-        movdqa  0x60(%r10), %xmm14      # .Lk_sb2+16
-        ret
-.size   _vpaes_preheat,.-_vpaes_preheat
-########################################################
-##                                                    ##
-##                     Constants                      ##
-##                                                    ##
-########################################################
-.section .rodata
-.type   _vpaes_consts,\@object
-.align  64
-_vpaes_consts:
-.Lk_inv:        # inv, inva
-        .quad   0x0E05060F0D080180, 0x040703090A0B0C02
-        .quad   0x01040A060F0B0780, 0x030D0E0C02050809
-.Lk_s0F:        # s0F
-        .quad   0x0F0F0F0F0F0F0F0F, 0x0F0F0F0F0F0F0F0F
-.Lk_ipt:        # input transform (lo, hi)
-        .quad   0xC2B2E8985A2A7000, 0xCABAE09052227808
-        .quad   0x4C01307D317C4D00, 0xCD80B1FCB0FDCC81
-.Lk_sb1:        # sb1u, sb1t
-        .quad   0xB19BE18FCB503E00, 0xA5DF7A6E142AF544
-        .quad   0x3618D415FAE22300, 0x3BF7CCC10D2ED9EF
-.Lk_sb2:        # sb2u, sb2t
-        .quad   0xE27A93C60B712400, 0x5EB7E955BC982FCD
-        .quad   0x69EB88400AE12900, 0xC2A163C8AB82234A
-.Lk_sbo:        # sbou, sbot
-        .quad   0xD0D26D176FBDC700, 0x15AABF7AC502A878
-        .quad   0xCFE474A55FBB6A00, 0x8E1E90D1412B35FA
-.Lk_mc_forward: # mc_forward
-        .quad   0x0407060500030201, 0x0C0F0E0D080B0A09
-        .quad   0x080B0A0904070605, 0x000302010C0F0E0D
-        .quad   0x0C0F0E0D080B0A09, 0x0407060500030201
-        .quad   0x000302010C0F0E0D, 0x080B0A0904070605
-.Lk_mc_backward:# mc_backward
-        .quad   0x0605040702010003, 0x0E0D0C0F0A09080B
-        .quad   0x020100030E0D0C0F, 0x0A09080B06050407
-        .quad   0x0E0D0C0F0A09080B, 0x0605040702010003
-        .quad   0x0A09080B06050407, 0x020100030E0D0C0F
-.Lk_sr:         # sr
-        .quad   0x0706050403020100, 0x0F0E0D0C0B0A0908
-        .quad   0x030E09040F0A0500, 0x0B06010C07020D08
-        .quad   0x0F060D040B020900, 0x070E050C030A0108
-        .quad   0x0B0E0104070A0D00, 0x0306090C0F020508
-.Lk_rcon:       # rcon
-        .quad   0x1F8391B9AF9DEEB6, 0x702A98084D7C7D81
-.Lk_s63:        # s63: all equal to 0x63 transformed
-        .quad   0x5B5B5B5B5B5B5B5B, 0x5B5B5B5B5B5B5B5B
-.Lk_opt:        # output transform
-        .quad   0xFF9F4929D6B66000, 0xF7974121DEBE6808
-        .quad   0x01EDBD5150BCEC00, 0xE10D5DB1B05C0CE0
-.Lk_deskew:     # deskew tables: inverts the sbox's "skew"
-        .quad   0x07E4A34047A4E300, 0x1DFEB95A5DBEF91A
-        .quad   0x5F36B5DC83EA6900, 0x2841C2ABF49D1E77
-##
-##  Decryption stuff
-##  Key schedule constants
-##
-.Lk_dksd:       # decryption key schedule: invskew x*D
-        .quad   0xFEB91A5DA3E44700, 0x0740E3A45A1DBEF9
-        .quad   0x41C277F4B5368300, 0x5FDC69EAAB289D1E
-.Lk_dksb:       # decryption key schedule: invskew x*B
-        .quad   0x9A4FCA1F8550D500, 0x03D653861CC94C99
-        .quad   0x115BEDA7B6FC4A00, 0xD993256F7E3482C8
-.Lk_dkse:       # decryption key schedule: invskew x*E + 0x63
-        .quad   0xD5031CCA1FC9D600, 0x53859A4C994F5086
-        .quad   0xA23196054FDC7BE8, 0xCD5EF96A20B31487
-.Lk_dks9:       # decryption key schedule: invskew x*9
-        .quad   0xB6116FC87ED9A700, 0x4AED933482255BFC
-        .quad   0x4576516227143300, 0x8BB89FACE9DAFDCE
-##
-##  Decryption stuff
-##  Round function constants
-##
-.Lk_dipt:       # decryption input transform
-        .quad   0x0F505B040B545F00, 0x154A411E114E451A
-        .quad   0x86E383E660056500, 0x12771772F491F194
-.Lk_dsb9:       # decryption sbox output *9*u, *9*t
-        .quad   0x851C03539A86D600, 0xCAD51F504F994CC9
-        .quad   0xC03B1789ECD74900, 0x725E2C9EB2FBA565
-.Lk_dsbd:       # decryption sbox output *D*u, *D*t
-        .quad   0x7D57CCDFE6B1A200, 0xF56E9B13882A4439
-        .quad   0x3CE2FAF724C6CB00, 0x2931180D15DEEFD3
-.Lk_dsbb:       # decryption sbox output *B*u, *B*t
-        .quad   0xD022649296B44200, 0x602646F6B0F2D404
-        .quad   0xC19498A6CD596700, 0xF3FF0C3E3255AA6B
-.Lk_dsbe:       # decryption sbox output *E*u, *E*t
-        .quad   0x46F2929626D4D000, 0x2242600464B4F6B0
-        .quad   0x0C55A6CDFFAAC100, 0x9467F36B98593E32
-.Lk_dsbo:       # decryption sbox final output
-        .quad   0x1387EA537EF94000, 0xC7AA6DB9D4943E2D
-        .quad   0x12D7560F93441D00, 0xCA4B8159D8C58E9C
-.align  64
-.size   _vpaes_consts,.-_vpaes_consts
-.text
-___
-if ($win64) {
-# EXCEPTION_DISPOSITION handler (EXCEPTION_RECORD *rec,ULONG64 frame,
-#               CONTEXT *context,DISPATCHER_CONTEXT *disp)
-$rec="%rcx";
-$frame="%rdx";
-$context="%r8";
-$disp="%r9";
-$code.=<<___;
-.extern __imp_RtlVirtualUnwind
-.type   se_handler,\@abi-omnipotent
-.align  16
-se_handler:
-        _CET_ENDBR
-        push    %rsi
-        push    %rdi
-        push    %rbx
-        push    %rbp
-        push    %r12
-        push    %r13
-        push    %r14
-        push    %r15
-        pushfq
-        sub     \$64,%rsp
-        mov     120($context),%rax      # pull context->Rax
-        mov     248($context),%rbx      # pull context->Rip
-        mov     8($disp),%rsi           # disp->ImageBase
-        mov     56($disp),%r11          # disp->HandlerData
-        mov     0(%r11),%r10d           # HandlerData[0]
-        lea     (%rsi,%r10),%r10        # prologue label
-        cmp     %r10,%rbx               # context->Rip<prologue label
-        jb      .Lin_prologue
-        mov     152($context),%rax      # pull context->Rsp
-        mov     4(%r11),%r10d           # HandlerData[1]
-        lea     (%rsi,%r10),%r10        # epilogue label
-        cmp     %r10,%rbx               # context->Rip>=epilogue label
-        jae     .Lin_prologue
-        lea     16(%rax),%rsi           # %xmm save area
-        lea     512($context),%rdi      # &context.Xmm6
-        mov     \$20,%ecx               # 10*sizeof(%xmm0)/sizeof(%rax)
-        .long   0xa548f3fc              # cld; rep movsq
-        lea     0xb8(%rax),%rax         # adjust stack pointer
-.Lin_prologue:
-        mov     8(%rax),%rdi
-        mov     16(%rax),%rsi
-        mov     %rax,152($context)      # restore context->Rsp
-        mov     %rsi,168($context)      # restore context->Rsi
-        mov     %rdi,176($context)      # restore context->Rdi
-        mov     40($disp),%rdi          # disp->ContextRecord
-        mov     $context,%rsi           # context
-        mov     \$`1232/8`,%ecx         # sizeof(CONTEXT)
-        .long   0xa548f3fc              # cld; rep movsq
-        mov     $disp,%rsi
-        xor     %rcx,%rcx               # arg1, UNW_FLAG_NHANDLER
-        mov     8(%rsi),%rdx            # arg2, disp->ImageBase
-        mov     0(%rsi),%r8             # arg3, disp->ControlPc
-        mov     16(%rsi),%r9            # arg4, disp->FunctionEntry
-        mov     40(%rsi),%r10           # disp->ContextRecord
-        lea     56(%rsi),%r11           # &disp->HandlerData
-        lea     24(%rsi),%r12           # &disp->EstablisherFrame
-        mov     %r10,32(%rsp)           # arg5
-        mov     %r11,40(%rsp)           # arg6
-        mov     %r12,48(%rsp)           # arg7
-        mov     %rcx,56(%rsp)           # arg8, (NULL)
-        call    *__imp_RtlVirtualUnwind(%rip)
-        mov     \$1,%eax                # ExceptionContinueSearch
-        add     \$64,%rsp
-        popfq
-        pop     %r15
-        pop     %r14
-        pop     %r13
-        pop     %r12
-        pop     %rbp
-        pop     %rbx
-        pop     %rdi
-        pop     %rsi
-        ret
-.size   se_handler,.-se_handler
-.section        .pdata
-.align  4
-        .rva    .LSEH_begin_${PREFIX}_set_encrypt_key
-        .rva    .LSEH_end_${PREFIX}_set_encrypt_key
-        .rva    .LSEH_info_${PREFIX}_set_encrypt_key
-        .rva    .LSEH_begin_${PREFIX}_set_decrypt_key
-        .rva    .LSEH_end_${PREFIX}_set_decrypt_key
-        .rva    .LSEH_info_${PREFIX}_set_decrypt_key
-        .rva    .LSEH_begin_${PREFIX}_encrypt
-        .rva    .LSEH_end_${PREFIX}_encrypt
-        .rva    .LSEH_info_${PREFIX}_encrypt
-        .rva    .LSEH_begin_${PREFIX}_decrypt
-        .rva    .LSEH_end_${PREFIX}_decrypt
-        .rva    .LSEH_info_${PREFIX}_decrypt
-        .rva    .LSEH_begin_${PREFIX}_cbc_encrypt
-        .rva    .LSEH_end_${PREFIX}_cbc_encrypt
-        .rva    .LSEH_info_${PREFIX}_cbc_encrypt
-.section        .xdata
-.align  8
-.LSEH_info_${PREFIX}_set_encrypt_key:
-        .byte   9,0,0,0
-        .rva    se_handler
-        .rva    .Lenc_key_body,.Lenc_key_epilogue       # HandlerData[]
-.LSEH_info_${PREFIX}_set_decrypt_key:
-        .byte   9,0,0,0
-        .rva    se_handler
-        .rva    .Ldec_key_body,.Ldec_key_epilogue       # HandlerData[]
-.LSEH_info_${PREFIX}_encrypt:
-        .byte   9,0,0,0
-        .rva    se_handler
-        .rva    .Lenc_body,.Lenc_epilogue               # HandlerData[]
-.LSEH_info_${PREFIX}_decrypt:
-        .byte   9,0,0,0
-        .rva    se_handler
-        .rva    .Ldec_body,.Ldec_epilogue               # HandlerData[]
-.LSEH_info_${PREFIX}_cbc_encrypt:
-        .byte   9,0,0,0
-        .rva    se_handler
-        .rva    .Lcbc_body,.Lcbc_epilogue               # HandlerData[]
-___
-}
-$code =~ s/\`([^\`]*)\`/eval($1)/gem;
-print $code;
-close STDOUT;