Submit FS#11843 v17. Integrate YUV-blitting of nano 2G to nano1G/color LCD driver. Additionally refactor RGB and YUV screen updates to use same code fragments and save some binsize. YUV speedup is +3-4%, RGB 1/4 screen +2%.

git-svn-id: svn://svn.rockbox.org/rockbox/trunk@28944 a1c6a512-1295-4272-9138-f99709370657
author: Andree Buschmann <AndreeBuschmann@t-online.de> 2011-01-02 21:43:14 +0000
committer: Andree Buschmann <AndreeBuschmann@t-online.de> 2011-01-02 21:43:14 +0000
commit: 9f78d3809707cd38d49be1557c311c9a95aca2ef (patch)
tree: 98271cc5d492880353616f110477acfce3de69ae /firmware/target/arm/ipod/lcd-as-color-nano.S
parent: cacc64a4feef33dfd2aef2a1092f110ac196382b (diff)
download: rockbox-9f78d3809707cd38d49be1557c311c9a95aca2ef.tar.gz
rockbox-9f78d3809707cd38d49be1557c311c9a95aca2ef.zip
1 files changed, 256 insertions, 121 deletions
diff --git a/firmware/target/arm/ipod/lcd-as-color-nano.S b/firmware/target/arm/ipod/lcd-as-color-nano.S
index d4df4d496a..f6f9cc5be3 100755
--- a/firmware/target/arm/ipod/lcd-as-color-nano.S
+++ b/firmware/target/arm/ipod/lcd-as-color-nano.S
@@ -7,7 +7,7 @@
 *                     \/            \/     \/    \/            \/
 * $Id:$
 *
- * Copyright (C) 2010 by Andree Buschmann
+ * Copyright (C) 2010-2011 by Andree Buschmann
 *
 * Generic asm helper function used by YUV blitting.
 *
@@ -24,129 +24,264 @@
 #include "config.h"
 #include "cpu.h"
-    .section    .icode, "ax", %progbits
+/**************************************************************************** 
+ * #define FORCE_FIFO_WAIT
+ *
+ * This is not needed in YUV blitting when the LCD IF is fast enough. In this
+ * case YUV-to-RGB conversion per pixel needs longer than the transfer of a 
+ * pixel via the LCD IF.
+ ****************************************************************************/
+#include "config.h"
+/* Set FIFO wait for both iPod Color and iPod nano1G until we know for which
+ * devices we can switch this off. */
+#define FORCE_FIFO_WAIT
+    .section .icode, "ax", %progbits
+    
 /****************************************************************************
-*  void lcd_yuv_write_inner_loop(unsigned char const * const ysrc,
+ * extern void lcd_write_yuv420_lines(unsigned char const * const src[3],
-*                                unsigned char const * const usrc,
+ *                                    const unsigned LCD_BASE,
-*                                unsigned char const * const vsrc,
+ *                                    int width,
-*                                int width);
+ *                                    int stride);
-*
+ *
-*   YUV- > RGB565 conversion
+ *   Conversion from Motion JPEG and MPEG Y'PbPr to RGB is:
-*   |R|   |1.000000 -0.000001  1.402000| |Y'|
+ *   |R|   |1.164  0.000  1.596| |Y' -  16|
-*   |G| = |1.000000 -0.334136 -0.714136| |Pb|
+ *   |G| = |1.164 -0.391 -0.813| |Pb - 128|
-*   |B|   |1.000000  1.772000  0.000000| |Pr|
+ *   |B|   |1.164  2.018  0.000| |Pr - 128|
-*   Scaled, normalized, rounded and tweaked to yield RGB 565:
+ *
-*   |R|   |74   0 101| |Y' -  16| >> 9
+ *   Scaled, normalized, rounded and tweaked to yield RGB 565:
-*   |G| = |74 -24 -51| |Cb - 128| >> 8
+ *   |R|   |74   0 101| |Y' -  16| >> 9
-*   |B|   |74 128   0| |Cr - 128| >> 9
+ *   |G| = |74 -24 -51| |Cb - 128| >> 8
-*
+ *   |B|   |74 128   0| |Cr - 128| >> 9
-*/
+ *
+ * Converts two lines from YUV to RGB565 and writes to LCD at once. First loop
+ * loads Cb/Cr, calculates the chroma offset and saves them to buffer. Within
+ * the second loop these chroma offset are reloaded from buffer. Within each 
+ * loop two pixels are calculated and written to LCD. 
+ */
    .align      2
-    .global     lcd_yuv_write_inner_loop
+    .global     lcd_write_yuv420_lines
-    .type       lcd_yuv_write_inner_loop, %function
+    .type       lcd_write_yuv420_lines, %function
+lcd_write_yuv420_lines:
-lcd_yuv_write_inner_loop:
+                                      /* r0 = src = yuv_src */
-                                        @ r0 = ysrc
+                                      /* r1 = dst = LCD_BASE */
-                                        @ r1 = usrc
+                                      /* r2 = width */
-                                        @ r2 = vsrc
+                                      /* r3 = stride */                
-                                        @ r3 = width
+    stmfd       sp!, { r4-r10, lr }   /* save non-scratch */
-    stmfd sp!, { r4-r11, lr }           @ save regs
+    ldmia       r0, { r9, r10, r12 }  /* r9 = yuv_src[0] = Y'_p */
-    mov r4, #0x70000000                 @ r4 = LCD2_BLOCK_CTRL - 0x20
+                                      /* r10 = yuv_src[1] = Cb_p */
-    add r4, r4, #0x8a00                 @
+                                      /* r12 = yuv_src[2] = Cr_p */
-    add r5, r4, #0x100                  @ r5 = LCD2_BLOCK_DATA
+    add         r3, r9, r3            /* r3 = &ysrc[stride] */
-10:                                     @ loop
+    add         r4, r2, r2, asr #1    /* chroma buffer lenght = width/2 *3 */
+    mov         r4, r4, asl #2        /*   use words for str/ldm possibility */
-    ldrb r7, [r1], #1                   @ *usrc++
+    add         r4, r4, #19           /*   plus room for 4 additional words, */
-    ldrb r8, [r2], #1                   @ *vsrc++
+    bic         r4, r4, #3            /*   rounded up to multiples of 4 byte */
+    sub         sp, sp, r4            /*   and allocate on stack */
-    sub r7, r7, #128                    @ Cb -= 128
+    stmia       sp, {r1-r4}           /* LCD_BASE, width, &ysrc[stride], stack_alloc */
-    sub r8, r8, #128                    @ Cr -= 128
+    mov         r7, r2                /* r7 = loop count */
-    add r10, r8, r8, asl #2             @ Cr*101
+    add         r8, sp, #16           /* chroma buffer */
-    add r10, r10, r8, asl #5
+    add         lr, r1, #0x100        /* LCD data port = LCD2_BASE + 0x100 */
-    add r10, r10, r8, asl #6
+    /* 1st loop start */
-    add r11, r8, r8, asl #1             @ Cr*51 + Cb*24
+10:                                   /* loop start */
-    add r11, r11, r11, asl #4
-    add r11, r11, r7, asl #3
+    ldrb        r0, [r10], #1         /* r0 = *usrc++ = *Cb_p++ */
-    add r11, r11, r7, asl #4
+    ldrb        r1, [r12], #1         /* r1 = *vsrc++ = *Cr_p++ */
-    add r12, r7, #2                     @ r12 = bu = (Cb*128 + 256) >> 9
+    sub         r0, r0, #128          /* r0 = Cb-128 */
-    mov r12, r12, asr #2
+    sub         r1, r1, #128          /* r1 = Cr-128 */
-    add r10, r10, #256                  @ r10 = rv = (Cr*101 + 256) >> 9
-    mov r10, r10, asr #9
+    add         r2, r1, r1, asl #1    /* r2 = Cr*51 + Cb*24 */
-    rsb r11, r11, #128                  @ r11 = guv = (-r11 + 128) >> 8
+    add         r2, r2, r2, asl #4   
-    mov r11, r11, asr #8
+    add         r2, r2, r0, asl #3   
+    add         r2, r2, r0, asl #4   
-@ pixel_1
-    ldrb r7, [r0], #1                   @ *ysrc++
+    add         r4, r1, r1, asl #2    /* r1 = Cr*101 */
-    sub r7, r7, #16                     @ Y = (Y' - 16) * 37
+    add         r4, r4, r1, asl #5
-    add r8, r7, r7, asl #2
+    add         r1, r4, r1, asl #6
-    add r7, r8, r7, asl #5
+    add         r1, r1, #256          /* r1 = rv = (r1 + 256) >> 9 */
-    add r9, r10, r7, asr #8             @ R = (Y >> 8) + rv
+    mov         r1, r1, asr #9
-    add r8, r11, r7, asr #7             @ G = (Y >> 7) + guv
+    rsb         r2, r2, #128          /* r2 = guv = (-r2 + 128) >> 8 */
-    add r7, r12, r7, asr #8             @ B = (Y >> 8) + bu
+    mov         r2, r2, asr #8       
+    add         r0, r0, #2            /* r0 = bu = (Cb*128 + 256) >> 9 */
-    cmp r9, #31                         @ clamp R
+    mov         r0, r0, asr #2       
-    mvnhi r9, r9, asr #31
+    stmia       r8!, {r0-r2}          /* store r0, r1 and r2 to chroma buffer */
-    andhi r9, r9, #31
+    /* 1st loop, first pixel */
-    cmp r8, #63                         @ clamp G
+    ldrb        r5, [r9], #1          /* r5 = *ysrc++ = *Y'_p++ */
-    mvnhi r8, r8, asr #31
+    sub         r5, r5, #16           /* r5 = (Y'-16) * 74 */
-    andhi r8, r8, #63
+    add         r3, r5, r5, asl #2
+    add         r5, r3, r5, asl #5
-    cmp r7, #31                         @ clamp B
-    mvnhi r7, r7, asr #31
+    add         r6, r1, r5, asr #8    /* r6 = r = (Y >> 9) + rv */
-    andhi r7, r7, #31
+    add         r3, r2, r5, asr #7    /* r3 = g = (Y >> 8) + guv */
+    add         r4, r0, r5, asr #8    /* r4 = b = (Y >> 9) + bu */
-    orr r6, r7, r8, lsl #5              @ pack pixel
-    orr r6, r6, r9, lsl #11
+    orr         r5, r6, r4            /* check if clamping is needed... */
+    orr         r5, r5, r3, asr #1    /* ...at all */
-    mov r7, r6, lsl #8                  @ swap bytes
+    cmp         r5, #31                 
-    and r7, r7, #0xff00
+    bls         15f                   /* -> no clamp */
-    add r6, r7, r6, lsr #8
+    cmp         r6, #31               /* clamp r */
+    mvnhi       r6, r6, asr #31         
-@ pixel_2
+    andhi       r6, r6, #31             
-    ldrb r7, [r0], #1                   @ *ysrc++
+    cmp         r3, #63               /* clamp g */
-    sub r7, r7, #16                     @ Y = (Y' - 16) * 37
+    mvnhi       r3, r3, asr #31
-    add r8, r7, r7, asl #2
+    andhi       r3, r3, #63
-    add r7, r8, r7, asl #5
+    cmp         r4, #31               /* clamp b */
+    mvnhi       r4, r4, asr #31         
-    add r9, r10, r7, asr #8             @ R = (Y >> 8) + rv
+    andhi       r4, r4, #31          
-    add r8, r11, r7, asr #7             @ G = (Y >> 7) + guv
+15:                                   /* no clamp */
-    add r7, r12, r7, asr #8             @ B = (Y >> 8) + bu
+    /* calculate pixel_1 and save to r4 for later pixel packing */
-    cmp r9, #31                         @ clamp R
+    orr         r4, r4, r3, lsl #5    /* pixel_1 = r<<11 | g<<5 | b */
-    mvnhi r9, r9, asr #31
+    orr         r4, r4, r6, lsl #11   /* r4 = pixel_1 */
-    andhi r9, r9, #31
+    /* 1st loop, second pixel */
-    cmp r8, #63                         @ clamp G
+    ldrb        r5, [r9], #1          /* r5 = *ysrc++ = *Y'_p++ */
-    mvnhi r8, r8, asr #31
+    sub         r5, r5, #16           /* r5 = (Y'-16) * 74 */
-    andhi r8, r8, #63
+    add         r3, r5, r5, asl #2
+    add         r5, r3, r5, asl #5
-    cmp r7, #31                         @ clamp B
-    mvnhi r7, r7, asr #31
+    add         r6, r1, r5, asr #8    /* r6 = r = (Y >> 9) + rv */
-    andhi r7, r7, #31
+    add         r3, r2, r5, asr #7    /* r3 = g = (Y >> 8) + guv */
+    add         r5, r0, r5, asr #8    /* r5 = b = (Y >> 9) + bu */   
-    orr r7, r7, r8, lsl #5              @ pack pixel
-    orr r7, r7, r9, lsl #11
+    orr         r0, r6, r5            /* check if clamping is needed... */
+    orr         r0, r0, r3, asr #1    /* ...at all */
-    orr r6, r6, r7, lsl #24             @ swap bytes and add pixels simultaneously
+    cmp         r0, #31                 
-    mov r7, r7, lsr #8
+    bls         15f                   /* -> no clamp */
-    orr r6, r6, r7, lsl #16
+    cmp         r6, #31               /* clamp r */
-#if 1
+    mvnhi       r6, r6, asr #31         
-11:                                     @ while (!(LCD2_BLOCK_CTRL & LCD2_BLOCK_TXOK));
+    andhi       r6, r6, #31             
-    ldr r11, [r4, #0x20]                @
+    cmp         r3, #63               /* clamp g */
-    tst r11, #0x1000000                 @
+    mvnhi       r3, r3, asr #31
-    beq 11b                             @
+    andhi       r3, r3, #63
+    cmp         r5, #31               /* clamp b */
+    mvnhi       r5, r5, asr #31         
+    andhi       r5, r5, #31          
+15:                                   /* no clamp */
+    /* calculate pixel_2 and pack with pixel_1 before writing */
+    orr         r5, r5, r3, lsl #5    /* pixel_2 = r<<11 | g<<5 | b */
+    orr         r5, r5, r6, lsl #11   /* r5 = pixel_2 */
+#ifdef FORCE_FIFO_WAIT
+    /* wait for FIFO half full */
+.fifo_wait1:
+    ldr         r3, [lr, #-0xE0]      /* while !(LCD2_BLOCK_CTRL & 0x1000000); */
+    tst         r3, #0x1000000
+    beq         .fifo_wait1
 #endif
-    str r6, [r5]                        @ send two pixels
-    subs r3, r3, #2                     @ decrease width
+    mov         r3, r4, lsl #8        /* swap pixel_1 */
-    bgt 10b                             @ loop
+    and         r3, r3, #0xff00
+    add         r4, r3, r4, lsr #8
+    
+    orr         r4, r4, r5, lsl #24   /* swap pixel_2 and pack with pixel_1 */
+    mov         r5, r5, lsr #8
+    orr         r4, r4, r5, lsl #16
+    str         r4, [lr]              /* write pixel_1 and pixel_2 */
+    subs        r7, r7, #2            /* check for loop end */
+    bgt         10b                   /* back to beginning  */
+    /* 1st loop end */
+    /* Reload several registers for pointer rewinding for next loop */
+    add         r8, sp, #16           /* chroma buffer */
+    ldmia       sp, { r1, r7, r9}     /* r1  = LCD_BASE */
+                                      /* r7  = loop count */
+                                      /* r9 = &ysrc[stride] */   
+    /* 2nd loop start */
+20:                                   /* loop start */
+    /* restore r0 (bu), r1 (rv) and r2 (guv) from chroma buffer */
+    ldmia       r8!, {r0-r2}
+    /* 2nd loop, first pixel */
+    ldrb        r5, [r9], #1          /* r5 = *ysrc++ = *Y'_p++ */
+    sub         r5, r5, #16           /* r5 = (Y'-16) * 74 */
+    add         r3, r5, r5, asl #2
+    add         r5, r3, r5, asl #5
+    add         r6, r1, r5, asr #8    /* r6 = r = (Y >> 9) + rv */
+    add         r3, r2, r5, asr #7    /* r3 = g = (Y >> 8) + guv */
+    add         r4, r0, r5, asr #8    /* r4 = b = (Y >> 9) + bu */
+    orr         r5, r6, r4            /* check if clamping is needed... */
+    orr         r5, r5, r3, asr #1    /* ...at all */
+    cmp         r5, #31                 
+    bls         15f                   /* -> no clamp */
+    cmp         r6, #31               /* clamp r */
+    mvnhi       r6, r6, asr #31         
+    andhi       r6, r6, #31             
+    cmp         r3, #63               /* clamp g */
+    mvnhi       r3, r3, asr #31
+    andhi       r3, r3, #63
+    cmp         r4, #31               /* clamp b */
+    mvnhi       r4, r4, asr #31         
+    andhi       r4, r4, #31          
+15:                                   /* no clamp */
+    /* calculate pixel_1 and save to r4 for later pixel packing */
+    orr         r4, r4, r3, lsl #5    /* pixel_1 = r<<11 | g<<5 | b */
+    orr         r4, r4, r6, lsl #11   /* r4 = pixel_1 */
+    /* 2nd loop, second pixel */
+    ldrb        r5, [r9], #1          /* r5 = *ysrc++ = *Y'_p++ */
+    sub         r5, r5, #16           /* r5 = (Y'-16) * 74 */
+    add         r3, r5, r5, asl #2
+    add         r5, r3, r5, asl #5
+    add         r6, r1, r5, asr #8    /* r6 = r = (Y >> 9) + rv */
+    add         r3, r2, r5, asr #7    /* r3 = g = (Y >> 8) + guv */
+    add         r5, r0, r5, asr #8    /* r5 = b = (Y >> 9) + bu */
+    orr         r0, r6, r5            /* check if clamping is needed... */
+    orr         r0, r0, r3, asr #1    /* ...at all */
+    cmp         r0, #31                 
+    bls         15f                   /* -> no clamp */
+    cmp         r6, #31               /* clamp r */
+    mvnhi       r6, r6, asr #31         
+    andhi       r6, r6, #31             
+    cmp         r3, #63               /* clamp g */
+    mvnhi       r3, r3, asr #31
+    andhi       r3, r3, #63
+    cmp         r5, #31               /* clamp b */
+    mvnhi       r5, r5, asr #31         
+    andhi       r5, r5, #31          
+15:                                   /* no clamp */
+    /* calculate pixel_2 and pack with pixel_1 before writing */
+    orr         r5, r5, r3, lsl #5    /* pixel_2 = r<<11 | g<<5 | b */
+    orr         r5, r5, r6, lsl #11   /* r5 = pixel_2 */
+#ifdef FORCE_FIFO_WAIT
+    /* wait for FIFO half full */
+.fifo_wait2:
+    ldr         r3, [lr, #-0xE0]      /* while !(LCD2_BLOCK_CTRL & 0x1000000); */
+    tst         r3, #0x1000000
+    beq         .fifo_wait2
+#endif
+    mov         r3, r4, lsl #8        /* swap pixel_1 */
+    and         r3, r3, #0xff00
+    add         r4, r3, r4, lsr #8
+    
+    orr         r4, r4, r5, lsl #24   /* swap pixel_2 and pack with pixel_1 */
+    mov         r5, r5, lsr #8
+    orr         r4, r4, r5, lsl #16
+    
+    str         r4, [lr]              /* write pixel_1 and pixel_2 */
+    subs        r7, r7, #2            /* check for loop end */
+    bgt         20b                   /* back to beginning  */
+    /* 2nd loop end */
+    ldr         r3, [sp, #12]
+    add         sp, sp, r3            /* deallocate buffer */
+    ldmpc       regs=r4-r10           /* restore registers */
-    ldmpc regs=r4-r11                   @ restore regs
+    .ltorg
-    .ltorg                              @ dump constant pool
+    .size   lcd_write_yuv420_lines, .-lcd_write_yuv420_lines
-    .size   lcd_yuv_write_inner_loop, .-lcd_yuv_write_inner_loop
author	Andree Buschmann <AndreeBuschmann@t-online.de>	2011-01-02 21:43:14 +0000
committer	Andree Buschmann <AndreeBuschmann@t-online.de>	2011-01-02 21:43:14 +0000
commit	9f78d3809707cd38d49be1557c311c9a95aca2ef (patch)
tree	98271cc5d492880353616f110477acfce3de69ae /firmware/target/arm/ipod/lcd-as-color-nano.S
parent	cacc64a4feef33dfd2aef2a1092f110ac196382b (diff)
download	rockbox-9f78d3809707cd38d49be1557c311c9a95aca2ef.tar.gz rockbox-9f78d3809707cd38d49be1557c311c9a95aca2ef.zip

diff --git a/firmware/target/arm/ipod/lcd-as-color-nano.S b/firmware/target/arm/ipod/lcd-as-color-nano.S index d4df4d496a..f6f9cc5be3 100755 --- a/firmware/target/arm/ipod/lcd-as-color-nano.S +++ b/firmware/target/arm/ipod/lcd-as-color-nano.S
@@ -7,7 +7,7 @@
7	* \/ \/ \/ \/ \/	7	* \/ \/ \/ \/ \/
8	* $Id:$	8	* $Id:$
9	*	9	*
10	* Copyright (C) 2010 by Andree Buschmann	10	* Copyright (C) 2010-2011 by Andree Buschmann
11	*	11	*
12	* Generic asm helper function used by YUV blitting.	12	* Generic asm helper function used by YUV blitting.
13	*	13	*
@@ -24,129 +24,264 @@
24	#include "config.h"	24	#include "config.h"
25	#include "cpu.h"	25	#include "cpu.h"
26		26
27	.section .icode, "ax", %progbits	27	/****************************************************************************
		28	* #define FORCE_FIFO_WAIT
		29	*
		30	* This is not needed in YUV blitting when the LCD IF is fast enough. In this
		31	* case YUV-to-RGB conversion per pixel needs longer than the transfer of a
		32	* pixel via the LCD IF.
		33	****************************************************************************/
		34
		35	#include "config.h"
		36
		37	/* Set FIFO wait for both iPod Color and iPod nano1G until we know for which
		38	* devices we can switch this off. */
		39	#define FORCE_FIFO_WAIT
28		40
		41	.section .icode, "ax", %progbits
		42
29	/****************************************************************************	43	/****************************************************************************
30	* void lcd_yuv_write_inner_loop(unsigned char const * const ysrc,	44	* extern void lcd_write_yuv420_lines(unsigned char const * const src[3],
31	* unsigned char const * const usrc,	45	* const unsigned LCD_BASE,
32	* unsigned char const * const vsrc,	46	* int width,
33	* int width);	47	* int stride);
34	*	48	*
35	* YUV- > RGB565 conversion	49	* Conversion from Motion JPEG and MPEG Y'PbPr to RGB is:
36	* \|R\| \|1.000000 -0.000001 1.402000\| \|Y'\|	50	* \|R\| \|1.164 0.000 1.596\| \|Y' - 16\|
37	* \|G\| = \|1.000000 -0.334136 -0.714136\| \|Pb\|	51	* \|G\| = \|1.164 -0.391 -0.813\| \|Pb - 128\|
38	* \|B\| \|1.000000 1.772000 0.000000\| \|Pr\|	52	* \|B\| \|1.164 2.018 0.000\| \|Pr - 128\|
39	* Scaled, normalized, rounded and tweaked to yield RGB 565:	53	*
40	* \|R\| \|74 0 101\| \|Y' - 16\| >> 9	54	* Scaled, normalized, rounded and tweaked to yield RGB 565:
41	* \|G\| = \|74 -24 -51\| \|Cb - 128\| >> 8	55	* \|R\| \|74 0 101\| \|Y' - 16\| >> 9
42	* \|B\| \|74 128 0\| \|Cr - 128\| >> 9	56	* \|G\| = \|74 -24 -51\| \|Cb - 128\| >> 8
43	*	57	* \|B\| \|74 128 0\| \|Cr - 128\| >> 9
44	*/	58	*
		59	* Converts two lines from YUV to RGB565 and writes to LCD at once. First loop
		60	* loads Cb/Cr, calculates the chroma offset and saves them to buffer. Within
		61	* the second loop these chroma offset are reloaded from buffer. Within each
		62	* loop two pixels are calculated and written to LCD.
		63	*/
45	.align 2	64	.align 2
46	.global lcd_yuv_write_inner_loop	65	.global lcd_write_yuv420_lines
47	.type lcd_yuv_write_inner_loop, %function	66	.type lcd_write_yuv420_lines, %function
48		67	lcd_write_yuv420_lines:
49	lcd_yuv_write_inner_loop:	68	/* r0 = src = yuv_src */
50	@ r0 = ysrc	69	/* r1 = dst = LCD_BASE */
51	@ r1 = usrc	70	/* r2 = width */
52	@ r2 = vsrc	71	/* r3 = stride */
53	@ r3 = width	72	stmfd sp!, { r4-r10, lr } /* save non-scratch */
54	stmfd sp!, { r4-r11, lr } @ save regs	73	ldmia r0, { r9, r10, r12 } /* r9 = yuv_src[0] = Y'_p */
55	mov r4, #0x70000000 @ r4 = LCD2_BLOCK_CTRL - 0x20	74	/* r10 = yuv_src[1] = Cb_p */
56	add r4, r4, #0x8a00 @	75	/* r12 = yuv_src[2] = Cr_p */
57	add r5, r4, #0x100 @ r5 = LCD2_BLOCK_DATA	76	add r3, r9, r3 /* r3 = &ysrc[stride] */
58	10: @ loop	77	add r4, r2, r2, asr #1 /* chroma buffer lenght = width/2 3 /
59		78	mov r4, r4, asl #2 /* use words for str/ldm possibility */
60	ldrb r7, [r1], #1 @ *usrc++	79	add r4, r4, #19 /* plus room for 4 additional words, */
61	ldrb r8, [r2], #1 @ *vsrc++	80	bic r4, r4, #3 /* rounded up to multiples of 4 byte */
62		81	sub sp, sp, r4 /* and allocate on stack */
63	sub r7, r7, #128 @ Cb -= 128	82	stmia sp, {r1-r4} /* LCD_BASE, width, &ysrc[stride], stack_alloc */
64	sub r8, r8, #128 @ Cr -= 128	83
65		84	mov r7, r2 /* r7 = loop count */
66	add r10, r8, r8, asl #2 @ Cr*101	85	add r8, sp, #16 /* chroma buffer */
67	add r10, r10, r8, asl #5	86	add lr, r1, #0x100 /* LCD data port = LCD2_BASE + 0x100 */
68	add r10, r10, r8, asl #6	87
69		88	/* 1st loop start */
70	add r11, r8, r8, asl #1 @ Cr51 + Cb24	89	10: /* loop start */
71	add r11, r11, r11, asl #4	90
72	add r11, r11, r7, asl #3	91	ldrb r0, [r10], #1 /* r0 = usrc++ = Cb_p++ */
73	add r11, r11, r7, asl #4	92	ldrb r1, [r12], #1 /* r1 = vsrc++ = Cr_p++ */
74		93
75	add r12, r7, #2 @ r12 = bu = (Cb*128 + 256) >> 9	94	sub r0, r0, #128 /* r0 = Cb-128 */
76	mov r12, r12, asr #2	95	sub r1, r1, #128 /* r1 = Cr-128 */
77	add r10, r10, #256 @ r10 = rv = (Cr*101 + 256) >> 9	96
78	mov r10, r10, asr #9	97	add r2, r1, r1, asl #1 /* r2 = Cr51 + Cb24 */
79	rsb r11, r11, #128 @ r11 = guv = (-r11 + 128) >> 8	98	add r2, r2, r2, asl #4
80	mov r11, r11, asr #8	99	add r2, r2, r0, asl #3
81		100	add r2, r2, r0, asl #4
82	@ pixel_1	101
83	ldrb r7, [r0], #1 @ *ysrc++	102	add r4, r1, r1, asl #2 /* r1 = Cr101 /
84	sub r7, r7, #16 @ Y = (Y' - 16) * 37	103	add r4, r4, r1, asl #5
85	add r8, r7, r7, asl #2	104	add r1, r4, r1, asl #6
86	add r7, r8, r7, asl #5	105
87		106	add r1, r1, #256 /* r1 = rv = (r1 + 256) >> 9 */
88	add r9, r10, r7, asr #8 @ R = (Y >> 8) + rv	107	mov r1, r1, asr #9
89	add r8, r11, r7, asr #7 @ G = (Y >> 7) + guv	108	rsb r2, r2, #128 /* r2 = guv = (-r2 + 128) >> 8 */
90	add r7, r12, r7, asr #8 @ B = (Y >> 8) + bu	109	mov r2, r2, asr #8
91		110	add r0, r0, #2 /* r0 = bu = (Cb128 + 256) >> 9 /
92	cmp r9, #31 @ clamp R	111	mov r0, r0, asr #2
93	mvnhi r9, r9, asr #31	112	stmia r8!, {r0-r2} /* store r0, r1 and r2 to chroma buffer */
94	andhi r9, r9, #31	113
95		114	/* 1st loop, first pixel */
96	cmp r8, #63 @ clamp G	115	ldrb r5, [r9], #1 /* r5 = ysrc++ = Y'_p++ */
97	mvnhi r8, r8, asr #31	116	sub r5, r5, #16 /* r5 = (Y'-16) * 74 */
98	andhi r8, r8, #63	117	add r3, r5, r5, asl #2
99		118	add r5, r3, r5, asl #5
100	cmp r7, #31 @ clamp B	119
101	mvnhi r7, r7, asr #31	120	add r6, r1, r5, asr #8 /* r6 = r = (Y >> 9) + rv */
102	andhi r7, r7, #31	121	add r3, r2, r5, asr #7 /* r3 = g = (Y >> 8) + guv */
103		122	add r4, r0, r5, asr #8 /* r4 = b = (Y >> 9) + bu */
104	orr r6, r7, r8, lsl #5 @ pack pixel	123
105	orr r6, r6, r9, lsl #11	124	orr r5, r6, r4 /* check if clamping is needed... */
106		125	orr r5, r5, r3, asr #1 /* ...at all */
107	mov r7, r6, lsl #8 @ swap bytes	126	cmp r5, #31
108	and r7, r7, #0xff00	127	bls 15f /* -> no clamp */
109	add r6, r7, r6, lsr #8	128	cmp r6, #31 /* clamp r */
110		129	mvnhi r6, r6, asr #31
111	@ pixel_2	130	andhi r6, r6, #31
112	ldrb r7, [r0], #1 @ *ysrc++	131	cmp r3, #63 /* clamp g */
113	sub r7, r7, #16 @ Y = (Y' - 16) * 37	132	mvnhi r3, r3, asr #31
114	add r8, r7, r7, asl #2	133	andhi r3, r3, #63
115	add r7, r8, r7, asl #5	134	cmp r4, #31 /* clamp b */
116		135	mvnhi r4, r4, asr #31
117	add r9, r10, r7, asr #8 @ R = (Y >> 8) + rv	136	andhi r4, r4, #31
118	add r8, r11, r7, asr #7 @ G = (Y >> 7) + guv	137	15: /* no clamp */
119	add r7, r12, r7, asr #8 @ B = (Y >> 8) + bu	138
120		139	/* calculate pixel_1 and save to r4 for later pixel packing */
121	cmp r9, #31 @ clamp R	140	orr r4, r4, r3, lsl #5 /* pixel_1 = r<<11 \| g<<5 \| b */
122	mvnhi r9, r9, asr #31	141	orr r4, r4, r6, lsl #11 /* r4 = pixel_1 */
123	andhi r9, r9, #31	142
124		143	/* 1st loop, second pixel */
125	cmp r8, #63 @ clamp G	144	ldrb r5, [r9], #1 /* r5 = ysrc++ = Y'_p++ */
126	mvnhi r8, r8, asr #31	145	sub r5, r5, #16 /* r5 = (Y'-16) * 74 */
127	andhi r8, r8, #63	146	add r3, r5, r5, asl #2
128		147	add r5, r3, r5, asl #5
129	cmp r7, #31 @ clamp B	148
130	mvnhi r7, r7, asr #31	149	add r6, r1, r5, asr #8 /* r6 = r = (Y >> 9) + rv */
131	andhi r7, r7, #31	150	add r3, r2, r5, asr #7 /* r3 = g = (Y >> 8) + guv */
132		151	add r5, r0, r5, asr #8 /* r5 = b = (Y >> 9) + bu */
133	orr r7, r7, r8, lsl #5 @ pack pixel	152
134	orr r7, r7, r9, lsl #11	153	orr r0, r6, r5 /* check if clamping is needed... */
135		154	orr r0, r0, r3, asr #1 /* ...at all */
136	orr r6, r6, r7, lsl #24 @ swap bytes and add pixels simultaneously	155	cmp r0, #31
137	mov r7, r7, lsr #8	156	bls 15f /* -> no clamp */
138	orr r6, r6, r7, lsl #16	157	cmp r6, #31 /* clamp r */
139	#if 1	158	mvnhi r6, r6, asr #31
140	11: @ while (!(LCD2_BLOCK_CTRL & LCD2_BLOCK_TXOK));	159	andhi r6, r6, #31
141	ldr r11, [r4, #0x20] @	160	cmp r3, #63 /* clamp g */
142	tst r11, #0x1000000 @	161	mvnhi r3, r3, asr #31
143	beq 11b @	162	andhi r3, r3, #63
		163	cmp r5, #31 /* clamp b */
		164	mvnhi r5, r5, asr #31
		165	andhi r5, r5, #31
		166	15: /* no clamp */
		167
		168	/* calculate pixel_2 and pack with pixel_1 before writing */
		169	orr r5, r5, r3, lsl #5 /* pixel_2 = r<<11 \| g<<5 \| b */
		170	orr r5, r5, r6, lsl #11 /* r5 = pixel_2 */
		171	#ifdef FORCE_FIFO_WAIT
		172	/* wait for FIFO half full */
		173	.fifo_wait1:
		174	ldr r3, [lr, #-0xE0] /* while !(LCD2_BLOCK_CTRL & 0x1000000); */
		175	tst r3, #0x1000000
		176	beq .fifo_wait1
144	#endif	177	#endif
145	str r6, [r5] @ send two pixels
146		178
147	subs r3, r3, #2 @ decrease width	179	mov r3, r4, lsl #8 /* swap pixel_1 */
148	bgt 10b @ loop	180	and r3, r3, #0xff00
		181	add r4, r3, r4, lsr #8
		182
		183	orr r4, r4, r5, lsl #24 /* swap pixel_2 and pack with pixel_1 */
		184	mov r5, r5, lsr #8
		185	orr r4, r4, r5, lsl #16
		186
		187	str r4, [lr] /* write pixel_1 and pixel_2 */
		188
		189	subs r7, r7, #2 /* check for loop end */
		190	bgt 10b /* back to beginning */
		191	/* 1st loop end */
		192
		193	/* Reload several registers for pointer rewinding for next loop */
		194	add r8, sp, #16 /* chroma buffer */
		195	ldmia sp, { r1, r7, r9} /* r1 = LCD_BASE */
		196	/* r7 = loop count */
		197	/* r9 = &ysrc[stride] */
		198
		199	/* 2nd loop start */
		200	20: /* loop start */
		201	/* restore r0 (bu), r1 (rv) and r2 (guv) from chroma buffer */
		202	ldmia r8!, {r0-r2}
		203
		204	/* 2nd loop, first pixel */
		205	ldrb r5, [r9], #1 /* r5 = ysrc++ = Y'_p++ */
		206	sub r5, r5, #16 /* r5 = (Y'-16) * 74 */
		207	add r3, r5, r5, asl #2
		208	add r5, r3, r5, asl #5
		209
		210	add r6, r1, r5, asr #8 /* r6 = r = (Y >> 9) + rv */
		211	add r3, r2, r5, asr #7 /* r3 = g = (Y >> 8) + guv */
		212	add r4, r0, r5, asr #8 /* r4 = b = (Y >> 9) + bu */
		213
		214	orr r5, r6, r4 /* check if clamping is needed... */
		215	orr r5, r5, r3, asr #1 /* ...at all */
		216	cmp r5, #31
		217	bls 15f /* -> no clamp */
		218	cmp r6, #31 /* clamp r */
		219	mvnhi r6, r6, asr #31
		220	andhi r6, r6, #31
		221	cmp r3, #63 /* clamp g */
		222	mvnhi r3, r3, asr #31
		223	andhi r3, r3, #63
		224	cmp r4, #31 /* clamp b */
		225	mvnhi r4, r4, asr #31
		226	andhi r4, r4, #31
		227	15: /* no clamp */
		228	/* calculate pixel_1 and save to r4 for later pixel packing */
		229	orr r4, r4, r3, lsl #5 /* pixel_1 = r<<11 \| g<<5 \| b */
		230	orr r4, r4, r6, lsl #11 /* r4 = pixel_1 */
		231
		232	/* 2nd loop, second pixel */
		233	ldrb r5, [r9], #1 /* r5 = ysrc++ = Y'_p++ */
		234	sub r5, r5, #16 /* r5 = (Y'-16) * 74 */
		235	add r3, r5, r5, asl #2
		236	add r5, r3, r5, asl #5
		237
		238	add r6, r1, r5, asr #8 /* r6 = r = (Y >> 9) + rv */
		239	add r3, r2, r5, asr #7 /* r3 = g = (Y >> 8) + guv */
		240	add r5, r0, r5, asr #8 /* r5 = b = (Y >> 9) + bu */
		241
		242	orr r0, r6, r5 /* check if clamping is needed... */
		243	orr r0, r0, r3, asr #1 /* ...at all */
		244	cmp r0, #31
		245	bls 15f /* -> no clamp */
		246	cmp r6, #31 /* clamp r */
		247	mvnhi r6, r6, asr #31
		248	andhi r6, r6, #31
		249	cmp r3, #63 /* clamp g */
		250	mvnhi r3, r3, asr #31
		251	andhi r3, r3, #63
		252	cmp r5, #31 /* clamp b */
		253	mvnhi r5, r5, asr #31
		254	andhi r5, r5, #31
		255	15: /* no clamp */
		256
		257	/* calculate pixel_2 and pack with pixel_1 before writing */
		258	orr r5, r5, r3, lsl #5 /* pixel_2 = r<<11 \| g<<5 \| b */
		259	orr r5, r5, r6, lsl #11 /* r5 = pixel_2 */
		260	#ifdef FORCE_FIFO_WAIT
		261	/* wait for FIFO half full */
		262	.fifo_wait2:
		263	ldr r3, [lr, #-0xE0] /* while !(LCD2_BLOCK_CTRL & 0x1000000); */
		264	tst r3, #0x1000000
		265	beq .fifo_wait2
		266	#endif
		267
		268	mov r3, r4, lsl #8 /* swap pixel_1 */
		269	and r3, r3, #0xff00
		270	add r4, r3, r4, lsr #8
		271
		272	orr r4, r4, r5, lsl #24 /* swap pixel_2 and pack with pixel_1 */
		273	mov r5, r5, lsr #8
		274	orr r4, r4, r5, lsl #16
		275
		276	str r4, [lr] /* write pixel_1 and pixel_2 */
		277
		278	subs r7, r7, #2 /* check for loop end */
		279	bgt 20b /* back to beginning */
		280	/* 2nd loop end */
		281
		282	ldr r3, [sp, #12]
		283	add sp, sp, r3 /* deallocate buffer */
		284	ldmpc regs=r4-r10 /* restore registers */
149		285
150	ldmpc regs=r4-r11 @ restore regs	286	.ltorg
151	.ltorg @ dump constant pool	287	.size lcd_write_yuv420_lines, .-lcd_write_yuv420_lines
152	.size lcd_yuv_write_inner_loop, .-lcd_yuv_write_inner_loop