1 files changed, 535 insertions, 0 deletions
diff --git a/lib/rbcodec/codecs/libffmpegFLAC/coldfire.S b/lib/rbcodec/codecs/libffmpegFLAC/coldfire.S
new file mode 100644
index 0000000000..efbb907874
--- /dev/null
+++ b/lib/rbcodec/codecs/libffmpegFLAC/coldfire.S
@@ -0,0 +1,535 @@
+/***************************************************************************
+ *             __________               __   ___.
+ *   Open      \______   \ ____   ____ |  | _\_ |__   _______  ___
+ *   Source     |       _//  _ \_/ ___\|  |/ /| __ \ /  _ \  \/  /
+ *   Jukebox    |    |   (  <_> )  \___|    < | \_\ (  <_> > <  <
+ *   Firmware   |____|_  /\____/ \___  >__|_ \|___  /\____/__/\_ \
+ *                     \/            \/     \/    \/            \/
+ * $Id$
+ *
+ * Copyright (C) 2005 by Thom Johansen 
+ *
+ * This program is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU General Public License
+ * as published by the Free Software Foundation; either version 2
+ * of the License, or (at your option) any later version.
+ *
+ * This software is distributed on an "AS IS" basis, WITHOUT WARRANTY OF ANY
+ * KIND, either express or implied.
+ *
+ ****************************************************************************/
+ 
+/* The following are assembler optimised version of the LPC filtering
+   routines needed for FLAC decoding. They is optimised for use with the
+   MCF5249 processor, or any other similar ColdFire core with the EMAC unit.
+ */
+/* This routine deals with sample widths 16 and lower. All LPC filtering up to
+   order 10 is done in specially optimised unrolled loops, while every order
+   above this is handled by a slower default routine.
+ */
+    .section .icode,"ax",@progbits
+    .global lpc_decode_emac
+    .align 2
+lpc_decode_emac:
+    lea.l (-44, %sp), %sp
+    movem.l %d2-%d7/%a2-%a6, (%sp)
+    movem.l (44+4, %sp), %d0-%d2/%a0-%a1
+    /* d0 = blocksize, d1 = qlevel, d2 = pred_order
+       a0 = data, a1 = coeffs
+     */
+     
+    /* the data pointer always lags behind history pointer by 'pred_order'
+       samples. since we have one loop for each order, we can hard code this
+       and free a register by not saving data pointer. 
+     */ 
+    move.l %d2, %d3 
+    neg.l %d3
+    lea.l (%a0, %d3.l*4), %a0 | history
+    clr.l %d3
+    move.l %d3, %macsr        | we'll need integer mode for this
+    tst.l %d0          
+    jeq .exit                 | zero samples to process, exit
+    moveq.l #10, %d3
+    cmp.l %d3, %d2
+    jgt .default              | order is over 10, jump to default case
+    jmp.l (2, %pc, %d2.l*4)   | jump to loop corresponding to pred_order
+| jumptable:
+    bra.w .exit               | zero order filter isn't possible, exit function
+    bra.w .order1
+    bra.w .order2
+    bra.w .order3
+    bra.w .order4
+    bra.w .order5
+    bra.w .order6
+    bra.w .order7
+    bra.w .order8
+    bra.w .order9
+| last jump table entry coincides with target, so leave it out
+.order10:
+    movem.l (%a1), %d3-%d7/%a1-%a5 | load lpc coefs
+    move.l (%a0)+, %a6             | load first history sample
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, (%a0)+, %a6, %acc0
+    mac.l %a6, %a3, (%a0)+, %a6, %acc0
+    mac.l %a6, %a2, (%a0)+, %a6, %acc0
+    mac.l %a6, %a1, (%a0)+, %a6, %acc0
+    mac.l %a6, %d7, (%a0)+, %a6, %acc0
+    mac.l %a6, %d6, (%a0)+, %a6, %acc0
+    mac.l %a6, %d5, (%a0)+, %a6, %acc0
+    mac.l %a6, %d4, (%a0)+, %a6, %acc0
+    mac.l %a6, %d3, (-9*4, %a0), %a6, %acc0 | load for the next iteration
+    movclr.l %acc0, %d2    | get sum
+    asr.l %d1, %d2         | shift sum by qlevel bits
+    add.l %d2, (%a0)       | add residual and save
+    lea.l (-8*4, %a0), %a0 | point history back at second element
+    subq.l #1, %d0         | decrement sample count
+    jne 1b                 | are we done?
+    jra .exit
+.order9:
+    movem.l (%a1), %d4-%d7/%a1-%a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, (%a0)+, %a6, %acc0
+    mac.l %a6, %a3, (%a0)+, %a6, %acc0
+    mac.l %a6, %a2, (%a0)+, %a6, %acc0
+    mac.l %a6, %a1, (%a0)+, %a6, %acc0
+    mac.l %a6, %d7, (%a0)+, %a6, %acc0
+    mac.l %a6, %d6, (%a0)+, %a6, %acc0
+    mac.l %a6, %d5, (%a0)+, %a6, %acc0
+    mac.l %a6, %d4, (-8*4, %a0), %a6, %acc0
+    movclr.l %acc0, %d2
+    asr.l %d1, %d2
+    add.l %d2, (%a0)
+    lea.l (-7*4, %a0), %a0
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+.order8:
+    movem.l (%a1), %d5-%d7/%a1-%a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, (%a0)+, %a6, %acc0
+    mac.l %a6, %a3, (%a0)+, %a6, %acc0
+    mac.l %a6, %a2, (%a0)+, %a6, %acc0
+    mac.l %a6, %a1, (%a0)+, %a6, %acc0
+    mac.l %a6, %d7, (%a0)+, %a6, %acc0
+    mac.l %a6, %d6, (%a0)+, %a6, %acc0
+    mac.l %a6, %d5, (-7*4, %a0), %a6, %acc0
+    movclr.l %acc0, %d2
+    asr.l %d1, %d2
+    add.l %d2, (%a0)
+    lea.l (-6*4, %a0), %a0
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+.order7:
+    movem.l (%a1), %d6-%d7/%a1-%a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, (%a0)+, %a6, %acc0
+    mac.l %a6, %a3, (%a0)+, %a6, %acc0
+    mac.l %a6, %a2, (%a0)+, %a6, %acc0
+    mac.l %a6, %a1, (%a0)+, %a6, %acc0
+    mac.l %a6, %d7, (%a0)+, %a6, %acc0
+    mac.l %a6, %d6, (-6*4, %a0), %a6, %acc0
+    movclr.l %acc0, %d2
+    asr.l %d1, %d2
+    add.l %d2, (%a0)
+    lea.l (-5*4, %a0), %a0
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+.order6:
+    movem.l (%a1), %d7/%a1-%a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, (%a0)+, %a6, %acc0
+    mac.l %a6, %a3, (%a0)+, %a6, %acc0
+    mac.l %a6, %a2, (%a0)+, %a6, %acc0
+    mac.l %a6, %a1, (%a0)+, %a6, %acc0
+    mac.l %a6, %d7, (-5*4, %a0), %a6, %acc0
+    movclr.l %acc0, %d2
+    asr.l %d1, %d2
+    add.l %d2, (%a0)
+    lea.l (-4*4, %a0), %a0
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+.order5:
+    movem.l (%a1), %a1-%a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, (%a0)+, %a6, %acc0
+    mac.l %a6, %a3, (%a0)+, %a6, %acc0
+    mac.l %a6, %a2, (%a0)+, %a6, %acc0
+    mac.l %a6, %a1, (-4*4, %a0), %a6, %acc0
+    movclr.l %acc0, %d2
+    asr.l %d1, %d2
+    add.l %d2, (%a0)
+    lea.l (-3*4, %a0), %a0
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+.order4:
+    movem.l (%a1), %a2-%a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, (%a0)+, %a6, %acc0
+    mac.l %a6, %a3, (%a0)+, %a6, %acc0
+    mac.l %a6, %a2, (-3*4, %a0), %a6, %acc0
+    movclr.l %acc0, %d2
+    asr.l %d1, %d2
+    add.l %d2, (%a0)
+    subq.l #8, %a0
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+.order3:
+    movem.l (%a1), %a3-%a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, (%a0)+, %a6, %acc0
+    mac.l %a6, %a3, (-2*4, %a0), %a6, %acc0
+    movclr.l %acc0, %d2
+    asr.l %d1, %d2
+    add.l %d2, (%a0)
+    subq.l #4, %a0
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+.order2:
+    movem.l (%a1), %a4-%a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, %acc0    | data for next iteration is already loaded
+    movclr.l %acc0, %d2
+    asr.l %d1, %d2
+    add.l %d2, (%a0)
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+.order1:
+    | no point in using mac here
+    move.l (%a1), %a5 
+1:
+    move.l %a5, %d2
+    muls.l (%a0)+, %d2
+    asr.l %d1, %d2
+    add.l %d2, (%a0)
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+    
+.default:
+    /* we do the filtering in an unrolled by 4 loop as far as we can, and then
+       do the rest by jump table. */
+    lea.l (%a1, %d2.l*4), %a2 | need to start in the other end of coefs
+    move.l %a0, %a3           | working copy of history pointer
+    move.l %d2, %d3
+    lsr.l #2, %d3             | coefs/4, num of iterations needed in next loop
+    move.l (%a3)+, %a5        | preload data for loop
+1:
+    lea.l (-4*4, %a2), %a2    | move lpc coef pointer four samples backwards
+    movem.l (%a2), %d4-%d7    | load four coefs
+    mac.l %a5, %d7, (%a3)+, %a5, %acc0
+    mac.l %a5, %d6, (%a3)+, %a5, %acc0
+    mac.l %a5, %d5, (%a3)+, %a5, %acc0
+    mac.l %a5, %d4, (%a3)+, %a5, %acc0
+    subq.l #1, %d3            | any more unrolled loop operations left?
+    jne 1b
+    
+    moveq.l #3, %d3           | mask 0x00000003
+    and.l %d2, %d3            | get the remaining samples to be filtered
+    jmp.l (2, %pc, %d3*2)     | then jump into mac.l chain
+| jumptable:
+    bra.b 3f                  | none left 
+    bra.b 2f                  | one left
+    bra.b 1f                  | two left
+| three left
+    move.l -(%a2), %d4
+    mac.l %a5, %d4, (%a3)+, %a5, %acc0
+1:
+    move.l -(%a2), %d4
+    mac.l %a5, %d4, (%a3)+, %a5, %acc0
+2:
+    move.l -(%a2), %d4
+    mac.l %a5, %d4, (%a3)+, %a5, %acc0
+3:
+    movclr.l %acc0, %d3       | get result
+    asr.l %d1, %d3            | shift qlevel bits right
+    add.l %a5, %d3            | add residual, which is in a5 by now
+    move.l %d3, -(%a3)        | save, a3 is also one past save location
+    addq.l #4, %a0            | increment history pointer
+    subq.l #1, %d0            | decrement sample count 
+    jne .default              | are we done?
+    jra .exit                 | if so, fall through to exit
+/* This routine deals with sample widths 24 and lower. All LPC filtering up to
+   order 8 is done in specially optimised unrolled loops, while every order
+   above this is handled by a slower default routine.
+ */
+    .global lpc_decode_emac_wide
+    .align 2
+lpc_decode_emac_wide:
+    lea.l (-44, %sp), %sp
+    movem.l %d2-%d7/%a2-%a6, (%sp)
+    movem.l (44+4, %sp), %d0-%d1/%d3/%a0-%a1
+    /* d0 = blocksize, d1 = qlevel, d3 = pred_order
+       a0 = data, a1 = coeffs
+     */
+     
+    /* the data pointer always lags behind history pointer by 'pred_order'
+       samples. since we have one loop for each order, we can hard code this
+       and free a register by not saving data pointer. 
+     */ 
+    move.l %d3, %d2
+    neg.l %d2
+    lea.l (%a0, %d2.l*4), %a0 | history
+    clr.l %d2
+    move.l %d2, %macsr        | we'll need integer mode for this
+    tst.l %d0          
+    jeq .exit                 | zero samples to process, exit
+    moveq.l #32, %d2
+    sub.l %d1, %d2            | calculate shift amount for extension byte
+    moveq.l #8, %d4
+    cmp.l %d4, %d3
+    jgt .wdefault             | order is over 8, jump to default case
+    jmp.l (2, %pc, %d3.l*4)   | jump to loop corresponding to pred_order
+| jumptable:
+    bra.w .exit               | zero order filter isn't possible, exit function
+    bra.w .worder1
+    bra.w .worder2
+    bra.w .worder3
+    bra.w .worder4
+    bra.w .worder5
+    bra.w .worder6
+    bra.w .worder7
+| last jump table entry coincides with target, so leave it out
+.worder8:
+    movem.l (%a1), %d5-%d7/%a1-%a5 | load lpc coefs
+    move.l (%a0)+, %a6             | load first history sample
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, (%a0)+, %a6, %acc0
+    mac.l %a6, %a3, (%a0)+, %a6, %acc0
+    mac.l %a6, %a2, (%a0)+, %a6, %acc0
+    mac.l %a6, %a1, (%a0)+, %a6, %acc0
+    mac.l %a6, %d7, (%a0)+, %a6, %acc0
+    mac.l %a6, %d6, (%a0)+, %a6, %acc0
+    mac.l %a6, %d5, (-7*4, %a0), %a6, %acc0 | load for the next iteration
+    move.l %accext01, %d4  | get top 8 bits of sum
+    movclr.l %acc0, %d3    | then botten 32 bits
+    lsr.l %d1, %d3         | shift bottom bits qlevel bits right
+    asl.l %d2, %d4         | shift top bits 32 - qlevel bits left
+    or.l %d4, %d3          | now combine results
+    add.l %d3, (%a0)       | add residual and save
+    lea.l (-6*4, %a0), %a0 | point history back at second element
+    subq.l #1, %d0         | decrement sample count
+    jne 1b                 | are we done?
+    jra .exit
+.worder7:
+    movem.l (%a1), %d6-%d7/%a1-%a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, (%a0)+, %a6, %acc0
+    mac.l %a6, %a3, (%a0)+, %a6, %acc0
+    mac.l %a6, %a2, (%a0)+, %a6, %acc0
+    mac.l %a6, %a1, (%a0)+, %a6, %acc0
+    mac.l %a6, %d7, (%a0)+, %a6, %acc0
+    mac.l %a6, %d6, (-6*4, %a0), %a6, %acc0
+    move.l %accext01, %d4
+    movclr.l %acc0, %d3
+    lsr.l %d1, %d3
+    asl.l %d2, %d4
+    or.l %d4, %d3
+    add.l %d3, (%a0)
+    lea.l (-5*4, %a0), %a0
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+.worder6:
+    movem.l (%a1), %d7/%a1-%a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, (%a0)+, %a6, %acc0
+    mac.l %a6, %a3, (%a0)+, %a6, %acc0
+    mac.l %a6, %a2, (%a0)+, %a6, %acc0
+    mac.l %a6, %a1, (%a0)+, %a6, %acc0
+    mac.l %a6, %d7, (-5*4, %a0), %a6, %acc0
+    move.l %accext01, %d4
+    movclr.l %acc0, %d3
+    lsr.l %d1, %d3
+    asl.l %d2, %d4
+    or.l %d4, %d3
+    add.l %d3, (%a0)
+    lea.l (-4*4, %a0), %a0
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+.worder5:
+    movem.l (%a1), %a1-%a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, (%a0)+, %a6, %acc0
+    mac.l %a6, %a3, (%a0)+, %a6, %acc0
+    mac.l %a6, %a2, (%a0)+, %a6, %acc0
+    mac.l %a6, %a1, (-4*4, %a0), %a6, %acc0
+    move.l %accext01, %d4
+    movclr.l %acc0, %d3
+    lsr.l %d1, %d3
+    asl.l %d2, %d4
+    or.l %d4, %d3
+    add.l %d3, (%a0)
+    lea.l (-3*4, %a0), %a0
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+.worder4:
+    movem.l (%a1), %a2-%a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, (%a0)+, %a6, %acc0
+    mac.l %a6, %a3, (%a0)+, %a6, %acc0
+    mac.l %a6, %a2, (-3*4, %a0), %a6, %acc0
+    move.l %accext01, %d4
+    movclr.l %acc0, %d3
+    lsr.l %d1, %d3
+    asl.l %d2, %d4
+    or.l %d4, %d3
+    add.l %d3, (%a0)
+    subq.l #8, %a0
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+.worder3:
+    movem.l (%a1), %a3-%a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, (%a0)+, %a6, %acc0
+    mac.l %a6, %a3, (-2*4, %a0), %a6, %acc0
+    move.l %accext01, %d4
+    movclr.l %acc0, %d3
+    lsr.l %d1, %d3
+    asl.l %d2, %d4
+    or.l %d4, %d3
+    add.l %d3, (%a0)
+    subq.l #4, %a0
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+.worder2:
+    movem.l (%a1), %a4-%a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0)+, %a6, %acc0
+    mac.l %a6, %a4, %acc0    | data for next iteration is already loaded
+    move.l %accext01, %d4
+    movclr.l %acc0, %d3
+    lsr.l %d1, %d3
+    asl.l %d2, %d4
+    or.l %d4, %d3
+    add.l %d3, (%a0)
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+.worder1:
+    move.l (%a1), %a5
+    move.l (%a0)+, %a6
+1:
+    mac.l %a6, %a5, (%a0), %a6, %acc0
+    move.l %accext01, %d4
+    movclr.l %acc0, %d3
+    lsr.l %d1, %d3
+    asl.l %d2, %d4
+    or.l %d4, %d3
+    add.l %a6, %d3      | residual is already in a6
+    move.l %d3, (%a0)+
+    subq.l #1, %d0
+    jne 1b
+    jra .exit
+    
+.wdefault:
+    /* we do the filtering in an unrolled by 4 loop as far as we can, and then
+       do the rest by jump table. */
+    lea.l (%a1, %d3.l*4), %a2 | need to start in the other end of coefs
+    move.l %a0, %a3           | working copy of history pointer
+    move.l %d3, %d4
+    lsr.l #2, %d4             | coefs/4, num of iterations needed in next loop
+    move.l (%a3)+, %a5        | preload data for loop
+1:
+    lea.l (-4*4, %a2), %a2     | move lpc coef pointer four samples backwards
+    movem.l (%a2), %d5-%d7/%a4 | load four coefs
+    mac.l %a5, %a4, (%a3)+, %a5, %acc0
+    mac.l %a5, %d7, (%a3)+, %a5, %acc0
+    mac.l %a5, %d6, (%a3)+, %a5, %acc0
+    mac.l %a5, %d5, (%a3)+, %a5, %acc0
+    subq.l #1, %d4            | any more unrolled loop operations left?
+    jne 1b
+    
+    moveq.l #3, %d4           | mask 0x00000003
+    and.l %d3, %d4            | get the remaining samples to be filtered
+    jmp.l (2, %pc, %d4*2)     | then jump into mac.l chain
+| jumptable:
+    bra.b 3f                  | none left 
+    bra.b 2f                  | one left
+    bra.b 1f                  | two left
+| three left
+    move.l -(%a2), %d4
+    mac.l %a5, %d4, (%a3)+, %a5, %acc0
+1:
+    move.l -(%a2), %d4
+    mac.l %a5, %d4, (%a3)+, %a5, %acc0
+2:
+    move.l -(%a2), %d4
+    mac.l %a5, %d4, (%a3)+, %a5, %acc0
+3:
+    move.l %accext01, %d5     | get high 32 bits of result
+    movclr.l %acc0, %d4       | get low 32 bits of result
+    lsr.l %d1, %d4            | shift qlevel bits right
+    asl.l %d2, %d5            | shift 32 - qlevel bits left
+    or.l %d5, %d4             | combine top and low bits after shift
+    add.l %a5, %d4            | add residual, which is in a5 by now
+    move.l %d4, -(%a3)        | save, a3 is also one past save location
+    addq.l #4, %a0            | increment history pointer
+    subq.l #1, %d0            | decrement sample count 
+    jne .wdefault             | are we done?
+                              | if so, fall through to exit
+.exit:
+    movem.l (%sp), %d2-%d7/%a2-%a6
+    lea.l (44, %sp), %sp
+    rts

diff --git a/lib/rbcodec/codecs/libffmpegFLAC/coldfire.S b/lib/rbcodec/codecs/libffmpegFLAC/coldfire.S new file mode 100644 index 0000000000..efbb907874 --- /dev/null +++ b/lib/rbcodec/codecs/libffmpegFLAC/coldfire.S
@@ -0,0 +1,535 @@
	1	/***************************************************************************
	2	* __________ __ ___.
	3	* Open \______ \ ____ ____ \| \| _\_ \|__ _______ ___
	4	* Source \| _// _ \_/ ___\\| \|/ /\| __ \ / _ \ \/ /
	5	* Jukebox \| \| ( <_> ) \___\| < \| \_\ ( <_> > < <
	6	* Firmware \|____\|_ /\____/ \___ >__\|_ \\|___ /\____/__/\_ \
	7	* \/ \/ \/ \/ \/
	8	* $Id$
	9	*
	10	* Copyright (C) 2005 by Thom Johansen
	11	*
	12	* This program is free software; you can redistribute it and/or
	13	* modify it under the terms of the GNU General Public License
	14	* as published by the Free Software Foundation; either version 2
	15	* of the License, or (at your option) any later version.
	16	*
	17	* This software is distributed on an "AS IS" basis, WITHOUT WARRANTY OF ANY
	18	* KIND, either express or implied.
	19	*
	20	****************************************************************************/
	21
	22	/* The following are assembler optimised version of the LPC filtering
	23	routines needed for FLAC decoding. They is optimised for use with the
	24	MCF5249 processor, or any other similar ColdFire core with the EMAC unit.
	25	*/
	26
	27	/* This routine deals with sample widths 16 and lower. All LPC filtering up to
	28	order 10 is done in specially optimised unrolled loops, while every order
	29	above this is handled by a slower default routine.
	30	*/
	31	.section .icode,"ax",@progbits
	32	.global lpc_decode_emac
	33	.align 2
	34	lpc_decode_emac:
	35	lea.l (-44, %sp), %sp
	36	movem.l %d2-%d7/%a2-%a6, (%sp)
	37	movem.l (44+4, %sp), %d0-%d2/%a0-%a1
	38	/* d0 = blocksize, d1 = qlevel, d2 = pred_order
	39	a0 = data, a1 = coeffs
	40	*/
	41
	42	/* the data pointer always lags behind history pointer by 'pred_order'
	43	samples. since we have one loop for each order, we can hard code this
	44	and free a register by not saving data pointer.
	45	*/
	46	move.l %d2, %d3
	47	neg.l %d3
	48	lea.l (%a0, %d3.l*4), %a0 \| history
	49	clr.l %d3
	50	move.l %d3, %macsr \| we'll need integer mode for this
	51	tst.l %d0
	52	jeq .exit \| zero samples to process, exit
	53	moveq.l #10, %d3
	54	cmp.l %d3, %d2
	55	jgt .default \| order is over 10, jump to default case
	56	jmp.l (2, %pc, %d2.l*4) \| jump to loop corresponding to pred_order
	57	\| jumptable:
	58	bra.w .exit \| zero order filter isn't possible, exit function
	59	bra.w .order1
	60	bra.w .order2
	61	bra.w .order3
	62	bra.w .order4
	63	bra.w .order5
	64	bra.w .order6
	65	bra.w .order7
	66	bra.w .order8
	67	bra.w .order9
	68
	69	\| last jump table entry coincides with target, so leave it out
	70	.order10:
	71	movem.l (%a1), %d3-%d7/%a1-%a5 \| load lpc coefs
	72	move.l (%a0)+, %a6 \| load first history sample
	73	1:
	74	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	75	mac.l %a6, %a4, (%a0)+, %a6, %acc0
	76	mac.l %a6, %a3, (%a0)+, %a6, %acc0
	77	mac.l %a6, %a2, (%a0)+, %a6, %acc0
	78	mac.l %a6, %a1, (%a0)+, %a6, %acc0
	79	mac.l %a6, %d7, (%a0)+, %a6, %acc0
	80	mac.l %a6, %d6, (%a0)+, %a6, %acc0
	81	mac.l %a6, %d5, (%a0)+, %a6, %acc0
	82	mac.l %a6, %d4, (%a0)+, %a6, %acc0
	83	mac.l %a6, %d3, (-9*4, %a0), %a6, %acc0 \| load for the next iteration
	84	movclr.l %acc0, %d2 \| get sum
	85	asr.l %d1, %d2 \| shift sum by qlevel bits
	86	add.l %d2, (%a0) \| add residual and save
	87	lea.l (-8*4, %a0), %a0 \| point history back at second element
	88	subq.l #1, %d0 \| decrement sample count
	89	jne 1b \| are we done?
	90	jra .exit
	91
	92	.order9:
	93	movem.l (%a1), %d4-%d7/%a1-%a5
	94	move.l (%a0)+, %a6
	95	1:
	96	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	97	mac.l %a6, %a4, (%a0)+, %a6, %acc0
	98	mac.l %a6, %a3, (%a0)+, %a6, %acc0
	99	mac.l %a6, %a2, (%a0)+, %a6, %acc0
	100	mac.l %a6, %a1, (%a0)+, %a6, %acc0
	101	mac.l %a6, %d7, (%a0)+, %a6, %acc0
	102	mac.l %a6, %d6, (%a0)+, %a6, %acc0
	103	mac.l %a6, %d5, (%a0)+, %a6, %acc0
	104	mac.l %a6, %d4, (-8*4, %a0), %a6, %acc0
	105	movclr.l %acc0, %d2
	106	asr.l %d1, %d2
	107	add.l %d2, (%a0)
	108	lea.l (-7*4, %a0), %a0
	109	subq.l #1, %d0
	110	jne 1b
	111	jra .exit
	112
	113	.order8:
	114	movem.l (%a1), %d5-%d7/%a1-%a5
	115	move.l (%a0)+, %a6
	116	1:
	117	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	118	mac.l %a6, %a4, (%a0)+, %a6, %acc0
	119	mac.l %a6, %a3, (%a0)+, %a6, %acc0
	120	mac.l %a6, %a2, (%a0)+, %a6, %acc0
	121	mac.l %a6, %a1, (%a0)+, %a6, %acc0
	122	mac.l %a6, %d7, (%a0)+, %a6, %acc0
	123	mac.l %a6, %d6, (%a0)+, %a6, %acc0
	124	mac.l %a6, %d5, (-7*4, %a0), %a6, %acc0
	125	movclr.l %acc0, %d2
	126	asr.l %d1, %d2
	127	add.l %d2, (%a0)
	128	lea.l (-6*4, %a0), %a0
	129	subq.l #1, %d0
	130	jne 1b
	131	jra .exit
	132
	133	.order7:
	134	movem.l (%a1), %d6-%d7/%a1-%a5
	135	move.l (%a0)+, %a6
	136	1:
	137	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	138	mac.l %a6, %a4, (%a0)+, %a6, %acc0
	139	mac.l %a6, %a3, (%a0)+, %a6, %acc0
	140	mac.l %a6, %a2, (%a0)+, %a6, %acc0
	141	mac.l %a6, %a1, (%a0)+, %a6, %acc0
	142	mac.l %a6, %d7, (%a0)+, %a6, %acc0
	143	mac.l %a6, %d6, (-6*4, %a0), %a6, %acc0
	144	movclr.l %acc0, %d2
	145	asr.l %d1, %d2
	146	add.l %d2, (%a0)
	147	lea.l (-5*4, %a0), %a0
	148	subq.l #1, %d0
	149	jne 1b
	150	jra .exit
	151
	152	.order6:
	153	movem.l (%a1), %d7/%a1-%a5
	154	move.l (%a0)+, %a6
	155	1:
	156	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	157	mac.l %a6, %a4, (%a0)+, %a6, %acc0
	158	mac.l %a6, %a3, (%a0)+, %a6, %acc0
	159	mac.l %a6, %a2, (%a0)+, %a6, %acc0
	160	mac.l %a6, %a1, (%a0)+, %a6, %acc0
	161	mac.l %a6, %d7, (-5*4, %a0), %a6, %acc0
	162	movclr.l %acc0, %d2
	163	asr.l %d1, %d2
	164	add.l %d2, (%a0)
	165	lea.l (-4*4, %a0), %a0
	166	subq.l #1, %d0
	167	jne 1b
	168	jra .exit
	169
	170	.order5:
	171	movem.l (%a1), %a1-%a5
	172	move.l (%a0)+, %a6
	173	1:
	174	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	175	mac.l %a6, %a4, (%a0)+, %a6, %acc0
	176	mac.l %a6, %a3, (%a0)+, %a6, %acc0
	177	mac.l %a6, %a2, (%a0)+, %a6, %acc0
	178	mac.l %a6, %a1, (-4*4, %a0), %a6, %acc0
	179	movclr.l %acc0, %d2
	180	asr.l %d1, %d2
	181	add.l %d2, (%a0)
	182	lea.l (-3*4, %a0), %a0
	183	subq.l #1, %d0
	184	jne 1b
	185	jra .exit
	186
	187	.order4:
	188	movem.l (%a1), %a2-%a5
	189	move.l (%a0)+, %a6
	190	1:
	191	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	192	mac.l %a6, %a4, (%a0)+, %a6, %acc0
	193	mac.l %a6, %a3, (%a0)+, %a6, %acc0
	194	mac.l %a6, %a2, (-3*4, %a0), %a6, %acc0
	195	movclr.l %acc0, %d2
	196	asr.l %d1, %d2
	197	add.l %d2, (%a0)
	198	subq.l #8, %a0
	199	subq.l #1, %d0
	200	jne 1b
	201	jra .exit
	202
	203	.order3:
	204	movem.l (%a1), %a3-%a5
	205	move.l (%a0)+, %a6
	206	1:
	207	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	208	mac.l %a6, %a4, (%a0)+, %a6, %acc0
	209	mac.l %a6, %a3, (-2*4, %a0), %a6, %acc0
	210	movclr.l %acc0, %d2
	211	asr.l %d1, %d2
	212	add.l %d2, (%a0)
	213	subq.l #4, %a0
	214	subq.l #1, %d0
	215	jne 1b
	216	jra .exit
	217
	218	.order2:
	219	movem.l (%a1), %a4-%a5
	220	move.l (%a0)+, %a6
	221	1:
	222	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	223	mac.l %a6, %a4, %acc0 \| data for next iteration is already loaded
	224	movclr.l %acc0, %d2
	225	asr.l %d1, %d2
	226	add.l %d2, (%a0)
	227	subq.l #1, %d0
	228	jne 1b
	229	jra .exit
	230
	231	.order1:
	232	\| no point in using mac here
	233	move.l (%a1), %a5
	234	1:
	235	move.l %a5, %d2
	236	muls.l (%a0)+, %d2
	237	asr.l %d1, %d2
	238	add.l %d2, (%a0)
	239	subq.l #1, %d0
	240	jne 1b
	241	jra .exit
	242
	243	.default:
	244	/* we do the filtering in an unrolled by 4 loop as far as we can, and then
	245	do the rest by jump table. */
	246	lea.l (%a1, %d2.l*4), %a2 \| need to start in the other end of coefs
	247	move.l %a0, %a3 \| working copy of history pointer
	248	move.l %d2, %d3
	249	lsr.l #2, %d3 \| coefs/4, num of iterations needed in next loop
	250	move.l (%a3)+, %a5 \| preload data for loop
	251	1:
	252	lea.l (-4*4, %a2), %a2 \| move lpc coef pointer four samples backwards
	253	movem.l (%a2), %d4-%d7 \| load four coefs
	254	mac.l %a5, %d7, (%a3)+, %a5, %acc0
	255	mac.l %a5, %d6, (%a3)+, %a5, %acc0
	256	mac.l %a5, %d5, (%a3)+, %a5, %acc0
	257	mac.l %a5, %d4, (%a3)+, %a5, %acc0
	258	subq.l #1, %d3 \| any more unrolled loop operations left?
	259	jne 1b
	260
	261	moveq.l #3, %d3 \| mask 0x00000003
	262	and.l %d2, %d3 \| get the remaining samples to be filtered
	263	jmp.l (2, %pc, %d3*2) \| then jump into mac.l chain
	264	\| jumptable:
	265	bra.b 3f \| none left
	266	bra.b 2f \| one left
	267	bra.b 1f \| two left
	268	\| three left
	269	move.l -(%a2), %d4
	270	mac.l %a5, %d4, (%a3)+, %a5, %acc0
	271	1:
	272	move.l -(%a2), %d4
	273	mac.l %a5, %d4, (%a3)+, %a5, %acc0
	274	2:
	275	move.l -(%a2), %d4
	276	mac.l %a5, %d4, (%a3)+, %a5, %acc0
	277	3:
	278	movclr.l %acc0, %d3 \| get result
	279	asr.l %d1, %d3 \| shift qlevel bits right
	280	add.l %a5, %d3 \| add residual, which is in a5 by now
	281	move.l %d3, -(%a3) \| save, a3 is also one past save location
	282	addq.l #4, %a0 \| increment history pointer
	283	subq.l #1, %d0 \| decrement sample count
	284	jne .default \| are we done?
	285	jra .exit \| if so, fall through to exit
	286
	287
	288	/* This routine deals with sample widths 24 and lower. All LPC filtering up to
	289	order 8 is done in specially optimised unrolled loops, while every order
	290	above this is handled by a slower default routine.
	291	*/
	292	.global lpc_decode_emac_wide
	293	.align 2
	294	lpc_decode_emac_wide:
	295	lea.l (-44, %sp), %sp
	296	movem.l %d2-%d7/%a2-%a6, (%sp)
	297	movem.l (44+4, %sp), %d0-%d1/%d3/%a0-%a1
	298	/* d0 = blocksize, d1 = qlevel, d3 = pred_order
	299	a0 = data, a1 = coeffs
	300	*/
	301
	302	/* the data pointer always lags behind history pointer by 'pred_order'
	303	samples. since we have one loop for each order, we can hard code this
	304	and free a register by not saving data pointer.
	305	*/
	306	move.l %d3, %d2
	307	neg.l %d2
	308	lea.l (%a0, %d2.l*4), %a0 \| history
	309	clr.l %d2
	310	move.l %d2, %macsr \| we'll need integer mode for this
	311	tst.l %d0
	312	jeq .exit \| zero samples to process, exit
	313	moveq.l #32, %d2
	314	sub.l %d1, %d2 \| calculate shift amount for extension byte
	315	moveq.l #8, %d4
	316	cmp.l %d4, %d3
	317	jgt .wdefault \| order is over 8, jump to default case
	318	jmp.l (2, %pc, %d3.l*4) \| jump to loop corresponding to pred_order
	319	\| jumptable:
	320	bra.w .exit \| zero order filter isn't possible, exit function
	321	bra.w .worder1
	322	bra.w .worder2
	323	bra.w .worder3
	324	bra.w .worder4
	325	bra.w .worder5
	326	bra.w .worder6
	327	bra.w .worder7
	328
	329	\| last jump table entry coincides with target, so leave it out
	330	.worder8:
	331	movem.l (%a1), %d5-%d7/%a1-%a5 \| load lpc coefs
	332	move.l (%a0)+, %a6 \| load first history sample
	333	1:
	334	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	335	mac.l %a6, %a4, (%a0)+, %a6, %acc0
	336	mac.l %a6, %a3, (%a0)+, %a6, %acc0
	337	mac.l %a6, %a2, (%a0)+, %a6, %acc0
	338	mac.l %a6, %a1, (%a0)+, %a6, %acc0
	339	mac.l %a6, %d7, (%a0)+, %a6, %acc0
	340	mac.l %a6, %d6, (%a0)+, %a6, %acc0
	341	mac.l %a6, %d5, (-7*4, %a0), %a6, %acc0 \| load for the next iteration
	342	move.l %accext01, %d4 \| get top 8 bits of sum
	343	movclr.l %acc0, %d3 \| then botten 32 bits
	344	lsr.l %d1, %d3 \| shift bottom bits qlevel bits right
	345	asl.l %d2, %d4 \| shift top bits 32 - qlevel bits left
	346	or.l %d4, %d3 \| now combine results
	347	add.l %d3, (%a0) \| add residual and save
	348	lea.l (-6*4, %a0), %a0 \| point history back at second element
	349	subq.l #1, %d0 \| decrement sample count
	350	jne 1b \| are we done?
	351	jra .exit
	352
	353	.worder7:
	354	movem.l (%a1), %d6-%d7/%a1-%a5
	355	move.l (%a0)+, %a6
	356	1:
	357	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	358	mac.l %a6, %a4, (%a0)+, %a6, %acc0
	359	mac.l %a6, %a3, (%a0)+, %a6, %acc0
	360	mac.l %a6, %a2, (%a0)+, %a6, %acc0
	361	mac.l %a6, %a1, (%a0)+, %a6, %acc0
	362	mac.l %a6, %d7, (%a0)+, %a6, %acc0
	363	mac.l %a6, %d6, (-6*4, %a0), %a6, %acc0
	364	move.l %accext01, %d4
	365	movclr.l %acc0, %d3
	366	lsr.l %d1, %d3
	367	asl.l %d2, %d4
	368	or.l %d4, %d3
	369	add.l %d3, (%a0)
	370	lea.l (-5*4, %a0), %a0
	371	subq.l #1, %d0
	372	jne 1b
	373	jra .exit
	374
	375	.worder6:
	376	movem.l (%a1), %d7/%a1-%a5
	377	move.l (%a0)+, %a6
	378	1:
	379	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	380	mac.l %a6, %a4, (%a0)+, %a6, %acc0
	381	mac.l %a6, %a3, (%a0)+, %a6, %acc0
	382	mac.l %a6, %a2, (%a0)+, %a6, %acc0
	383	mac.l %a6, %a1, (%a0)+, %a6, %acc0
	384	mac.l %a6, %d7, (-5*4, %a0), %a6, %acc0
	385	move.l %accext01, %d4
	386	movclr.l %acc0, %d3
	387	lsr.l %d1, %d3
	388	asl.l %d2, %d4
	389	or.l %d4, %d3
	390	add.l %d3, (%a0)
	391	lea.l (-4*4, %a0), %a0
	392	subq.l #1, %d0
	393	jne 1b
	394	jra .exit
	395
	396	.worder5:
	397	movem.l (%a1), %a1-%a5
	398	move.l (%a0)+, %a6
	399	1:
	400	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	401	mac.l %a6, %a4, (%a0)+, %a6, %acc0
	402	mac.l %a6, %a3, (%a0)+, %a6, %acc0
	403	mac.l %a6, %a2, (%a0)+, %a6, %acc0
	404	mac.l %a6, %a1, (-4*4, %a0), %a6, %acc0
	405	move.l %accext01, %d4
	406	movclr.l %acc0, %d3
	407	lsr.l %d1, %d3
	408	asl.l %d2, %d4
	409	or.l %d4, %d3
	410	add.l %d3, (%a0)
	411	lea.l (-3*4, %a0), %a0
	412	subq.l #1, %d0
	413	jne 1b
	414	jra .exit
	415
	416	.worder4:
	417	movem.l (%a1), %a2-%a5
	418	move.l (%a0)+, %a6
	419	1:
	420	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	421	mac.l %a6, %a4, (%a0)+, %a6, %acc0
	422	mac.l %a6, %a3, (%a0)+, %a6, %acc0
	423	mac.l %a6, %a2, (-3*4, %a0), %a6, %acc0
	424	move.l %accext01, %d4
	425	movclr.l %acc0, %d3
	426	lsr.l %d1, %d3
	427	asl.l %d2, %d4
	428	or.l %d4, %d3
	429	add.l %d3, (%a0)
	430	subq.l #8, %a0
	431	subq.l #1, %d0
	432	jne 1b
	433	jra .exit
	434
	435	.worder3:
	436	movem.l (%a1), %a3-%a5
	437	move.l (%a0)+, %a6
	438	1:
	439	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	440	mac.l %a6, %a4, (%a0)+, %a6, %acc0
	441	mac.l %a6, %a3, (-2*4, %a0), %a6, %acc0
	442	move.l %accext01, %d4
	443	movclr.l %acc0, %d3
	444	lsr.l %d1, %d3
	445	asl.l %d2, %d4
	446	or.l %d4, %d3
	447	add.l %d3, (%a0)
	448	subq.l #4, %a0
	449	subq.l #1, %d0
	450	jne 1b
	451	jra .exit
	452
	453	.worder2:
	454	movem.l (%a1), %a4-%a5
	455	move.l (%a0)+, %a6
	456	1:
	457	mac.l %a6, %a5, (%a0)+, %a6, %acc0
	458	mac.l %a6, %a4, %acc0 \| data for next iteration is already loaded
	459	move.l %accext01, %d4
	460	movclr.l %acc0, %d3
	461	lsr.l %d1, %d3
	462	asl.l %d2, %d4
	463	or.l %d4, %d3
	464	add.l %d3, (%a0)
	465	subq.l #1, %d0
	466	jne 1b
	467	jra .exit
	468
	469	.worder1:
	470	move.l (%a1), %a5
	471	move.l (%a0)+, %a6
	472	1:
	473	mac.l %a6, %a5, (%a0), %a6, %acc0
	474	move.l %accext01, %d4
	475	movclr.l %acc0, %d3
	476	lsr.l %d1, %d3
	477	asl.l %d2, %d4
	478	or.l %d4, %d3
	479	add.l %a6, %d3 \| residual is already in a6
	480	move.l %d3, (%a0)+
	481	subq.l #1, %d0
	482	jne 1b
	483	jra .exit
	484
	485	.wdefault:
	486	/* we do the filtering in an unrolled by 4 loop as far as we can, and then
	487	do the rest by jump table. */
	488	lea.l (%a1, %d3.l*4), %a2 \| need to start in the other end of coefs
	489	move.l %a0, %a3 \| working copy of history pointer
	490	move.l %d3, %d4
	491	lsr.l #2, %d4 \| coefs/4, num of iterations needed in next loop
	492	move.l (%a3)+, %a5 \| preload data for loop
	493	1:
	494	lea.l (-4*4, %a2), %a2 \| move lpc coef pointer four samples backwards
	495	movem.l (%a2), %d5-%d7/%a4 \| load four coefs
	496	mac.l %a5, %a4, (%a3)+, %a5, %acc0
	497	mac.l %a5, %d7, (%a3)+, %a5, %acc0
	498	mac.l %a5, %d6, (%a3)+, %a5, %acc0
	499	mac.l %a5, %d5, (%a3)+, %a5, %acc0
	500	subq.l #1, %d4 \| any more unrolled loop operations left?
	501	jne 1b
	502
	503	moveq.l #3, %d4 \| mask 0x00000003
	504	and.l %d3, %d4 \| get the remaining samples to be filtered
	505	jmp.l (2, %pc, %d4*2) \| then jump into mac.l chain
	506	\| jumptable:
	507	bra.b 3f \| none left
	508	bra.b 2f \| one left
	509	bra.b 1f \| two left
	510	\| three left
	511	move.l -(%a2), %d4
	512	mac.l %a5, %d4, (%a3)+, %a5, %acc0
	513	1:
	514	move.l -(%a2), %d4
	515	mac.l %a5, %d4, (%a3)+, %a5, %acc0
	516	2:
	517	move.l -(%a2), %d4
	518	mac.l %a5, %d4, (%a3)+, %a5, %acc0
	519	3:
	520	move.l %accext01, %d5 \| get high 32 bits of result
	521	movclr.l %acc0, %d4 \| get low 32 bits of result
	522	lsr.l %d1, %d4 \| shift qlevel bits right
	523	asl.l %d2, %d5 \| shift 32 - qlevel bits left
	524	or.l %d5, %d4 \| combine top and low bits after shift
	525	add.l %a5, %d4 \| add residual, which is in a5 by now
	526	move.l %d4, -(%a3) \| save, a3 is also one past save location
	527	addq.l #4, %a0 \| increment history pointer
	528	subq.l #1, %d0 \| decrement sample count
	529	jne .wdefault \| are we done?
	530	\| if so, fall through to exit
	531
	532	.exit:
	533	movem.l (%sp), %d2-%d7/%a2-%a6
	534	lea.l (44, %sp), %sp
	535	rts