libavcodec/armv4l/dsputil_arm_s.S

   1 @
   2 @ ARMv4L optimized DSP utils
   3 @ Copyright (c) 2004 AGAWA Koji <i (AT) atty (DOT) jp>
   4 @
   5 @ This file is part of FFmpeg.
   6 @
   7 @ FFmpeg is free software; you can redistribute it and/or
   8 @ modify it under the terms of the GNU Lesser General Public
   9 @ License as published by the Free Software Foundation; either
  10 @ version 2.1 of the License, or (at your option) any later version.
  11 @
  12 @ FFmpeg is distributed in the hope that it will be useful,
  13 @ but WITHOUT ANY WARRANTY; without even the implied warranty of
  14 @ MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  15 @ Lesser General Public License for more details.
  16 @
  17 @ You should have received a copy of the GNU Lesser General Public
  18 @ License along with FFmpeg; if not, write to the Free Software
  19 @ Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  20 @
  21
  22 .macro  ADJ_ALIGN_QUADWORD_D shift, Rd0, Rd1, Rd2, Rd3, Rn0, Rn1, Rn2, Rn3, Rn4
  23         mov \Rd0, \Rn0, lsr #(\shift * 8)
  24         mov \Rd1, \Rn1, lsr #(\shift * 8)
  25         mov \Rd2, \Rn2, lsr #(\shift * 8)
  26         mov \Rd3, \Rn3, lsr #(\shift * 8)
  27         orr \Rd0, \Rd0, \Rn1, lsl #(32 - \shift * 8)
  28         orr \Rd1, \Rd1, \Rn2, lsl #(32 - \shift * 8)
  29         orr \Rd2, \Rd2, \Rn3, lsl #(32 - \shift * 8)
  30         orr \Rd3, \Rd3, \Rn4, lsl #(32 - \shift * 8)
  31 .endm
  32 .macro  ADJ_ALIGN_DOUBLEWORD shift, R0, R1, R2
  33         mov \R0, \R0, lsr #(\shift * 8)
  34         orr \R0, \R0, \R1, lsl #(32 - \shift * 8)
  35         mov \R1, \R1, lsr #(\shift * 8)
  36         orr \R1, \R1, \R2, lsl #(32 - \shift * 8)
  37 .endm
  38 .macro  ADJ_ALIGN_DOUBLEWORD_D shift, Rdst0, Rdst1, Rsrc0, Rsrc1, Rsrc2
  39         mov \Rdst0, \Rsrc0, lsr #(\shift * 8)
  40         mov \Rdst1, \Rsrc1, lsr #(\shift * 8)
  41         orr \Rdst0, \Rdst0, \Rsrc1, lsl #(32 - (\shift * 8))
  42         orr \Rdst1, \Rdst1, \Rsrc2, lsl #(32 - (\shift * 8))
  43 .endm
  44
  45 .macro  RND_AVG32 Rd0, Rd1, Rn0, Rn1, Rm0, Rm1, Rmask
  46         @ Rd = (Rn | Rm) - (((Rn ^ Rm) & ~0x01010101) >> 1)
  47         @ Rmask = 0xFEFEFEFE
  48         @ Rn = destroy
  49         eor \Rd0, \Rn0, \Rm0
  50         eor \Rd1, \Rn1, \Rm1
  51         orr \Rn0, \Rn0, \Rm0
  52         orr \Rn1, \Rn1, \Rm1
  53         and \Rd0, \Rd0, \Rmask
  54         and \Rd1, \Rd1, \Rmask
  55         sub \Rd0, \Rn0, \Rd0, lsr #1
  56         sub \Rd1, \Rn1, \Rd1, lsr #1
  57 .endm
  58
  59 .macro  NO_RND_AVG32 Rd0, Rd1, Rn0, Rn1, Rm0, Rm1, Rmask
  60         @ Rd = (Rn & Rm) - (((Rn ^ Rm) & ~0x01010101) >> 1)
  61         @ Rmask = 0xFEFEFEFE
  62         @ Rn = destroy
  63         eor \Rd0, \Rn0, \Rm0
  64         eor \Rd1, \Rn1, \Rm1
  65         and \Rn0, \Rn0, \Rm0
  66         and \Rn1, \Rn1, \Rm1
  67         and \Rd0, \Rd0, \Rmask
  68         and \Rd1, \Rd1, \Rmask
  69         add \Rd0, \Rn0, \Rd0, lsr #1
  70         add \Rd1, \Rn1, \Rd1, lsr #1
  71 .endm
  72
  73 @ ----------------------------------------------------------------
  74         .align 8
  75         .global put_pixels16_arm
  76 put_pixels16_arm:
  77         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
  78         @ block = word aligned, pixles = unaligned
  79         pld [r1]
  80         stmfd sp!, {r4-r11, lr} @ R14 is also called LR
  81         adr r5, 5f
  82         ands r4, r1, #3
  83         bic r1, r1, #3
  84         add r5, r5, r4, lsl #2
  85         ldrne pc, [r5]
  86 1:
  87         ldmia r1, {r4-r7}
  88         add r1, r1, r2
  89         stmia r0, {r4-r7}
  90         pld [r1]
  91         subs r3, r3, #1
  92         add r0, r0, r2
  93         bne 1b
  94         ldmfd sp!, {r4-r11, pc}
  95         .align 8
  96 2:
  97         ldmia r1, {r4-r8}
  98         add r1, r1, r2
  99         ADJ_ALIGN_QUADWORD_D 1, r9, r10, r11, r12, r4, r5, r6, r7, r8
 100         pld [r1]
 101         subs r3, r3, #1
 102         stmia r0, {r9-r12}
 103         add r0, r0, r2
 104         bne 2b
 105         ldmfd sp!, {r4-r11, pc}
 106         .align 8
 107 3:
 108         ldmia r1, {r4-r8}
 109         add r1, r1, r2
 110         ADJ_ALIGN_QUADWORD_D 2, r9, r10, r11, r12, r4, r5, r6, r7, r8
 111         pld [r1]
 112         subs r3, r3, #1
 113         stmia r0, {r9-r12}
 114         add r0, r0, r2
 115         bne 3b
 116         ldmfd sp!, {r4-r11, pc}
 117         .align 8
 118 4:
 119         ldmia r1, {r4-r8}
 120         add r1, r1, r2
 121         ADJ_ALIGN_QUADWORD_D 3, r9, r10, r11, r12, r4, r5, r6, r7, r8
 122         pld [r1]
 123         subs r3, r3, #1
 124         stmia r0, {r9-r12}
 125         add r0, r0, r2
 126         bne 4b
 127         ldmfd sp!, {r4-r11,pc}
 128         .align 8
 129 5:
 130         .word 1b
 131         .word 2b
 132         .word 3b
 133         .word 4b
 134
 135 @ ----------------------------------------------------------------
 136         .align 8
 137         .global put_pixels8_arm
 138 put_pixels8_arm:
 139         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 140         @ block = word aligned, pixles = unaligned
 141         pld [r1]
 142         stmfd sp!, {r4-r5,lr} @ R14 is also called LR
 143         adr r5, 5f
 144         ands r4, r1, #3
 145         bic r1, r1, #3
 146         add r5, r5, r4, lsl #2
 147         ldrne pc, [r5]
 148 1:
 149         ldmia r1, {r4-r5}
 150         add r1, r1, r2
 151         subs r3, r3, #1
 152         pld [r1]
 153         stmia r0, {r4-r5}
 154         add r0, r0, r2
 155         bne 1b
 156         ldmfd sp!, {r4-r5,pc}
 157         .align 8
 158 2:
 159         ldmia r1, {r4-r5, r12}
 160         add r1, r1, r2
 161         ADJ_ALIGN_DOUBLEWORD 1, r4, r5, r12
 162         pld [r1]
 163         subs r3, r3, #1
 164         stmia r0, {r4-r5}
 165         add r0, r0, r2
 166         bne 2b
 167         ldmfd sp!, {r4-r5,pc}
 168         .align 8
 169 3:
 170         ldmia r1, {r4-r5, r12}
 171         add r1, r1, r2
 172         ADJ_ALIGN_DOUBLEWORD 2, r4, r5, r12
 173         pld [r1]
 174         subs r3, r3, #1
 175         stmia r0, {r4-r5}
 176         add r0, r0, r2
 177         bne 3b
 178         ldmfd sp!, {r4-r5,pc}
 179         .align 8
 180 4:
 181         ldmia r1, {r4-r5, r12}
 182         add r1, r1, r2
 183         ADJ_ALIGN_DOUBLEWORD 3, r4, r5, r12
 184         pld [r1]
 185         subs r3, r3, #1
 186         stmia r0, {r4-r5}
 187         add r0, r0, r2
 188         bne 4b
 189         ldmfd sp!, {r4-r5,pc}
 190         .align 8
 191 5:
 192         .word 1b
 193         .word 2b
 194         .word 3b
 195         .word 4b
 196
 197 @ ----------------------------------------------------------------
 198         .align 8
 199         .global put_pixels8_x2_arm
 200 put_pixels8_x2_arm:
 201         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 202         @ block = word aligned, pixles = unaligned
 203         pld [r1]
 204         stmfd sp!, {r4-r10,lr} @ R14 is also called LR
 205         adr r5, 5f
 206         ands r4, r1, #3
 207         ldr r12, [r5]
 208         add r5, r5, r4, lsl #2
 209         bic r1, r1, #3
 210         ldrne pc, [r5]
 211 1:
 212         ldmia r1, {r4-r5, r10}
 213         add r1, r1, r2
 214         ADJ_ALIGN_DOUBLEWORD_D 1, r6, r7, r4, r5, r10
 215         pld [r1]
 216         RND_AVG32 r8, r9, r4, r5, r6, r7, r12
 217         subs r3, r3, #1
 218         stmia r0, {r8-r9}
 219         add r0, r0, r2
 220         bne 1b
 221         ldmfd sp!, {r4-r10,pc}
 222         .align 8
 223 2:
 224         ldmia r1, {r4-r5, r10}
 225         add r1, r1, r2
 226         ADJ_ALIGN_DOUBLEWORD_D 1, r6, r7, r4, r5, r10
 227         ADJ_ALIGN_DOUBLEWORD_D 2, r8, r9, r4, r5, r10
 228         pld [r1]
 229         RND_AVG32 r4, r5, r6, r7, r8, r9, r12
 230         subs r3, r3, #1
 231         stmia r0, {r4-r5}
 232         add r0, r0, r2
 233         bne 2b
 234         ldmfd sp!, {r4-r10,pc}
 235         .align 8
 236 3:
 237         ldmia r1, {r4-r5, r10}
 238         add r1, r1, r2
 239         ADJ_ALIGN_DOUBLEWORD_D 2, r6, r7, r4, r5, r10
 240         ADJ_ALIGN_DOUBLEWORD_D 3, r8, r9, r4, r5, r10
 241         pld [r1]
 242         RND_AVG32 r4, r5, r6, r7, r8, r9, r12
 243         subs r3, r3, #1
 244         stmia r0, {r4-r5}
 245         add r0, r0, r2
 246         bne 3b
 247         ldmfd sp!, {r4-r10,pc}
 248         .align 8
 249 4:
 250         ldmia r1, {r4-r5, r10}
 251         add r1, r1, r2
 252         ADJ_ALIGN_DOUBLEWORD_D 3, r6, r7, r4, r5, r10
 253         pld [r1]
 254         RND_AVG32 r8, r9, r6, r7, r5, r10, r12
 255         subs r3, r3, #1
 256         stmia r0, {r8-r9}
 257         add r0, r0, r2
 258         bne 4b
 259         ldmfd sp!, {r4-r10,pc} @@ update PC with LR content.
 260         .align 8
 261 5:
 262         .word 0xFEFEFEFE
 263         .word 2b
 264         .word 3b
 265         .word 4b
 266
 267         .align 8
 268         .global put_no_rnd_pixels8_x2_arm
 269 put_no_rnd_pixels8_x2_arm:
 270         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 271         @ block = word aligned, pixles = unaligned
 272         pld [r1]
 273         stmfd sp!, {r4-r10,lr} @ R14 is also called LR
 274         adr r5, 5f
 275         ands r4, r1, #3
 276         ldr r12, [r5]
 277         add r5, r5, r4, lsl #2
 278         bic r1, r1, #3
 279         ldrne pc, [r5]
 280 1:
 281         ldmia r1, {r4-r5, r10}
 282         add r1, r1, r2
 283         ADJ_ALIGN_DOUBLEWORD_D 1, r6, r7, r4, r5, r10
 284         pld [r1]
 285         NO_RND_AVG32 r8, r9, r4, r5, r6, r7, r12
 286         subs r3, r3, #1
 287         stmia r0, {r8-r9}
 288         add r0, r0, r2
 289         bne 1b
 290         ldmfd sp!, {r4-r10,pc}
 291         .align 8
 292 2:
 293         ldmia r1, {r4-r5, r10}
 294         add r1, r1, r2
 295         ADJ_ALIGN_DOUBLEWORD_D 1, r6, r7, r4, r5, r10
 296         ADJ_ALIGN_DOUBLEWORD_D 2, r8, r9, r4, r5, r10
 297         pld [r1]
 298         NO_RND_AVG32 r4, r5, r6, r7, r8, r9, r12
 299         subs r3, r3, #1
 300         stmia r0, {r4-r5}
 301         add r0, r0, r2
 302         bne 2b
 303         ldmfd sp!, {r4-r10,pc}
 304         .align 8
 305 3:
 306         ldmia r1, {r4-r5, r10}
 307         add r1, r1, r2
 308         ADJ_ALIGN_DOUBLEWORD_D 2, r6, r7, r4, r5, r10
 309         ADJ_ALIGN_DOUBLEWORD_D 3, r8, r9, r4, r5, r10
 310         pld [r1]
 311         NO_RND_AVG32 r4, r5, r6, r7, r8, r9, r12
 312         subs r3, r3, #1
 313         stmia r0, {r4-r5}
 314         add r0, r0, r2
 315         bne 3b
 316         ldmfd sp!, {r4-r10,pc}
 317         .align 8
 318 4:
 319         ldmia r1, {r4-r5, r10}
 320         add r1, r1, r2
 321         ADJ_ALIGN_DOUBLEWORD_D 3, r6, r7, r4, r5, r10
 322         pld [r1]
 323         NO_RND_AVG32 r8, r9, r6, r7, r5, r10, r12
 324         subs r3, r3, #1
 325         stmia r0, {r8-r9}
 326         add r0, r0, r2
 327         bne 4b
 328         ldmfd sp!, {r4-r10,pc} @@ update PC with LR content.
 329         .align 8
 330 5:
 331         .word 0xFEFEFEFE
 332         .word 2b
 333         .word 3b
 334         .word 4b
 335
 336
 337 @ ----------------------------------------------------------------
 338         .align 8
 339         .global put_pixels8_y2_arm
 340 put_pixels8_y2_arm:
 341         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 342         @ block = word aligned, pixles = unaligned
 343         pld [r1]
 344         stmfd sp!, {r4-r11,lr} @ R14 is also called LR
 345         adr r5, 5f
 346         ands r4, r1, #3
 347         mov r3, r3, lsr #1
 348         ldr r12, [r5]
 349         add r5, r5, r4, lsl #2
 350         bic r1, r1, #3
 351         ldrne pc, [r5]
 352 1:
 353         ldmia r1, {r4-r5}
 354         add r1, r1, r2
 355 6:      ldmia r1, {r6-r7}
 356         add r1, r1, r2
 357         pld [r1]
 358         RND_AVG32 r8, r9, r4, r5, r6, r7, r12
 359         ldmia r1, {r4-r5}
 360         add r1, r1, r2
 361         stmia r0, {r8-r9}
 362         add r0, r0, r2
 363         pld [r1]
 364         RND_AVG32 r8, r9, r6, r7, r4, r5, r12
 365         subs r3, r3, #1
 366         stmia r0, {r8-r9}
 367         add r0, r0, r2
 368         bne 6b
 369         ldmfd sp!, {r4-r11,pc}
 370         .align 8
 371 2:
 372         ldmia r1, {r4-r6}
 373         add r1, r1, r2
 374         pld [r1]
 375         ADJ_ALIGN_DOUBLEWORD 1, r4, r5, r6
 376 6:      ldmia r1, {r7-r9}
 377         add r1, r1, r2
 378         pld [r1]
 379         ADJ_ALIGN_DOUBLEWORD 1, r7, r8, r9
 380         RND_AVG32 r10, r11, r4, r5, r7, r8, r12
 381         stmia r0, {r10-r11}
 382         add r0, r0, r2
 383         ldmia r1, {r4-r6}
 384         add r1, r1, r2
 385         pld [r1]
 386         ADJ_ALIGN_DOUBLEWORD 1, r4, r5, r6
 387         subs r3, r3, #1
 388         RND_AVG32 r10, r11, r7, r8, r4, r5, r12
 389         stmia r0, {r10-r11}
 390         add r0, r0, r2
 391         bne 6b
 392         ldmfd sp!, {r4-r11,pc}
 393         .align 8
 394 3:
 395         ldmia r1, {r4-r6}
 396         add r1, r1, r2
 397         pld [r1]
 398         ADJ_ALIGN_DOUBLEWORD 2, r4, r5, r6
 399 6:      ldmia r1, {r7-r9}
 400         add r1, r1, r2
 401         pld [r1]
 402         ADJ_ALIGN_DOUBLEWORD 2, r7, r8, r9
 403         RND_AVG32 r10, r11, r4, r5, r7, r8, r12
 404         stmia r0, {r10-r11}
 405         add r0, r0, r2
 406         ldmia r1, {r4-r6}
 407         add r1, r1, r2
 408         pld [r1]
 409         ADJ_ALIGN_DOUBLEWORD 2, r4, r5, r6
 410         subs r3, r3, #1
 411         RND_AVG32 r10, r11, r7, r8, r4, r5, r12
 412         stmia r0, {r10-r11}
 413         add r0, r0, r2
 414         bne 6b
 415         ldmfd sp!, {r4-r11,pc}
 416         .align 8
 417 4:
 418         ldmia r1, {r4-r6}
 419         add r1, r1, r2
 420         pld [r1]
 421         ADJ_ALIGN_DOUBLEWORD 3, r4, r5, r6
 422 6:      ldmia r1, {r7-r9}
 423         add r1, r1, r2
 424         pld [r1]
 425         ADJ_ALIGN_DOUBLEWORD 3, r7, r8, r9
 426         RND_AVG32 r10, r11, r4, r5, r7, r8, r12
 427         stmia r0, {r10-r11}
 428         add r0, r0, r2
 429         ldmia r1, {r4-r6}
 430         add r1, r1, r2
 431         pld [r1]
 432         ADJ_ALIGN_DOUBLEWORD 3, r4, r5, r6
 433         subs r3, r3, #1
 434         RND_AVG32 r10, r11, r7, r8, r4, r5, r12
 435         stmia r0, {r10-r11}
 436         add r0, r0, r2
 437         bne 6b
 438         ldmfd sp!, {r4-r11,pc}
 439
 440         .align 8
 441 5:
 442         .word 0xFEFEFEFE
 443         .word 2b
 444         .word 3b
 445         .word 4b
 446
 447         .align 8
 448         .global put_no_rnd_pixels8_y2_arm
 449 put_no_rnd_pixels8_y2_arm:
 450         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 451         @ block = word aligned, pixles = unaligned
 452         pld [r1]
 453         stmfd sp!, {r4-r11,lr} @ R14 is also called LR
 454         adr r5, 5f
 455         ands r4, r1, #3
 456         mov r3, r3, lsr #1
 457         ldr r12, [r5]
 458         add r5, r5, r4, lsl #2
 459         bic r1, r1, #3
 460         ldrne pc, [r5]
 461 1:
 462         ldmia r1, {r4-r5}
 463         add r1, r1, r2
 464 6:      ldmia r1, {r6-r7}
 465         add r1, r1, r2
 466         pld [r1]
 467         NO_RND_AVG32 r8, r9, r4, r5, r6, r7, r12
 468         ldmia r1, {r4-r5}
 469         add r1, r1, r2
 470         stmia r0, {r8-r9}
 471         add r0, r0, r2
 472         pld [r1]
 473         NO_RND_AVG32 r8, r9, r6, r7, r4, r5, r12
 474         subs r3, r3, #1
 475         stmia r0, {r8-r9}
 476         add r0, r0, r2
 477         bne 6b
 478         ldmfd sp!, {r4-r11,pc}
 479         .align 8
 480 2:
 481         ldmia r1, {r4-r6}
 482         add r1, r1, r2
 483         pld [r1]
 484         ADJ_ALIGN_DOUBLEWORD 1, r4, r5, r6
 485 6:      ldmia r1, {r7-r9}
 486         add r1, r1, r2
 487         pld [r1]
 488         ADJ_ALIGN_DOUBLEWORD 1, r7, r8, r9
 489         NO_RND_AVG32 r10, r11, r4, r5, r7, r8, r12
 490         stmia r0, {r10-r11}
 491         add r0, r0, r2
 492         ldmia r1, {r4-r6}
 493         add r1, r1, r2
 494         pld [r1]
 495         ADJ_ALIGN_DOUBLEWORD 1, r4, r5, r6
 496         subs r3, r3, #1
 497         NO_RND_AVG32 r10, r11, r7, r8, r4, r5, r12
 498         stmia r0, {r10-r11}
 499         add r0, r0, r2
 500         bne 6b
 501         ldmfd sp!, {r4-r11,pc}
 502         .align 8
 503 3:
 504         ldmia r1, {r4-r6}
 505         add r1, r1, r2
 506         pld [r1]
 507         ADJ_ALIGN_DOUBLEWORD 2, r4, r5, r6
 508 6:      ldmia r1, {r7-r9}
 509         add r1, r1, r2
 510         pld [r1]
 511         ADJ_ALIGN_DOUBLEWORD 2, r7, r8, r9
 512         NO_RND_AVG32 r10, r11, r4, r5, r7, r8, r12
 513         stmia r0, {r10-r11}
 514         add r0, r0, r2
 515         ldmia r1, {r4-r6}
 516         add r1, r1, r2
 517         pld [r1]
 518         ADJ_ALIGN_DOUBLEWORD 2, r4, r5, r6
 519         subs r3, r3, #1
 520         NO_RND_AVG32 r10, r11, r7, r8, r4, r5, r12
 521         stmia r0, {r10-r11}
 522         add r0, r0, r2
 523         bne 6b
 524         ldmfd sp!, {r4-r11,pc}
 525         .align 8
 526 4:
 527         ldmia r1, {r4-r6}
 528         add r1, r1, r2
 529         pld [r1]
 530         ADJ_ALIGN_DOUBLEWORD 3, r4, r5, r6
 531 6:      ldmia r1, {r7-r9}
 532         add r1, r1, r2
 533         pld [r1]
 534         ADJ_ALIGN_DOUBLEWORD 3, r7, r8, r9
 535         NO_RND_AVG32 r10, r11, r4, r5, r7, r8, r12
 536         stmia r0, {r10-r11}
 537         add r0, r0, r2
 538         ldmia r1, {r4-r6}
 539         add r1, r1, r2
 540         pld [r1]
 541         ADJ_ALIGN_DOUBLEWORD 3, r4, r5, r6
 542         subs r3, r3, #1
 543         NO_RND_AVG32 r10, r11, r7, r8, r4, r5, r12
 544         stmia r0, {r10-r11}
 545         add r0, r0, r2
 546         bne 6b
 547         ldmfd sp!, {r4-r11,pc}
 548         .align 8
 549 5:
 550         .word 0xFEFEFEFE
 551         .word 2b
 552         .word 3b
 553         .word 4b
 554
 555 @ ----------------------------------------------------------------
 556 .macro  RND_XY2_IT align, rnd
 557         @ l1=  (a & 0x03030303) + (b & 0x03030303) ?(+ 0x02020202)
 558         @ h1= ((a & 0xFCFCFCFCUL) >> 2) + ((b & 0xFCFCFCFCUL) >> 2)
 559 .if \align == 0
 560         ldmia r1, {r6-r8}
 561 .elseif \align == 3
 562         ldmia r1, {r5-r7}
 563 .else
 564         ldmia r1, {r8-r10}
 565 .endif
 566         add r1, r1, r2
 567         pld [r1]
 568 .if \align == 0
 569         ADJ_ALIGN_DOUBLEWORD_D 1, r4, r5, r6, r7, r8
 570 .elseif \align == 1
 571         ADJ_ALIGN_DOUBLEWORD_D 1, r4, r5, r8, r9, r10
 572         ADJ_ALIGN_DOUBLEWORD_D 2, r6, r7, r8, r9, r10
 573 .elseif \align == 2
 574         ADJ_ALIGN_DOUBLEWORD_D 2, r4, r5, r8, r9, r10
 575         ADJ_ALIGN_DOUBLEWORD_D 3, r6, r7, r8, r9, r10
 576 .elseif \align == 3
 577         ADJ_ALIGN_DOUBLEWORD_D 3, r4, r5, r5, r6, r7
 578 .endif
 579         ldr r14, [r12, #0]      @ 0x03030303
 580         tst r3, #1
 581         and r8, r4, r14
 582         and r9, r5, r14
 583         and r10, r6, r14
 584         and r11, r7, r14
 585 .if \rnd == 1
 586         ldreq r14, [r12, #16]   @ 0x02020202
 587 .else
 588         ldreq r14, [r12, #28]   @ 0x01010101
 589 .endif
 590         add r8, r8, r10
 591         add r9, r9, r11
 592         addeq r8, r8, r14
 593         addeq r9, r9, r14
 594         ldr r14, [r12, #20]     @ 0xFCFCFCFC >> 2
 595         and r4, r14, r4, lsr #2
 596         and r5, r14, r5, lsr #2
 597         and r6, r14, r6, lsr #2
 598         and r7, r14, r7, lsr #2
 599         add r10, r4, r6
 600         add r11, r5, r7
 601 .endm
 602
 603 .macro RND_XY2_EXPAND align, rnd
 604         RND_XY2_IT \align, \rnd
 605 6:      stmfd sp!, {r8-r11}
 606         RND_XY2_IT \align, \rnd
 607         ldmfd sp!, {r4-r7}
 608         add r4, r4, r8
 609         add r5, r5, r9
 610         add r6, r6, r10
 611         add r7, r7, r11
 612         ldr r14, [r12, #24]     @ 0x0F0F0F0F
 613         and r4, r14, r4, lsr #2
 614         and r5, r14, r5, lsr #2
 615         add r4, r4, r6
 616         add r5, r5, r7
 617         subs r3, r3, #1
 618         stmia r0, {r4-r5}
 619         add r0, r0, r2
 620         bne 6b
 621         ldmfd sp!, {r4-r11,pc}
 622 .endm
 623
 624         .align 8
 625         .global put_pixels8_xy2_arm
 626 put_pixels8_xy2_arm:
 627         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 628         @ block = word aligned, pixles = unaligned
 629         pld [r1]
 630         stmfd sp!, {r4-r11,lr} @ R14 is also called LR
 631         adrl r12, 5f
 632         ands r4, r1, #3
 633         add r5, r12, r4, lsl #2
 634         bic r1, r1, #3
 635         ldrne pc, [r5]
 636 1:
 637         RND_XY2_EXPAND 0, 1
 638
 639         .align 8
 640 2:
 641         RND_XY2_EXPAND 1, 1
 642
 643         .align 8
 644 3:
 645         RND_XY2_EXPAND 2, 1
 646
 647         .align 8
 648 4:
 649         RND_XY2_EXPAND 3, 1
 650
 651 5:
 652         .word 0x03030303
 653         .word 2b
 654         .word 3b
 655         .word 4b
 656         .word 0x02020202
 657         .word 0xFCFCFCFC >> 2
 658         .word 0x0F0F0F0F
 659         .word 0x01010101
 660
 661         .align 8
 662         .global put_no_rnd_pixels8_xy2_arm
 663 put_no_rnd_pixels8_xy2_arm:
 664         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 665         @ block = word aligned, pixles = unaligned
 666         pld [r1]
 667         stmfd sp!, {r4-r11,lr} @ R14 is also called LR
 668         adrl r12, 5f
 669         ands r4, r1, #3
 670         add r5, r12, r4, lsl #2
 671         bic r1, r1, #3
 672         ldrne pc, [r5]
 673 1:
 674         RND_XY2_EXPAND 0, 0
 675
 676         .align 8
 677 2:
 678         RND_XY2_EXPAND 1, 0
 679
 680         .align 8
 681 3:
 682         RND_XY2_EXPAND 2, 0
 683
 684         .align 8
 685 4:
 686         RND_XY2_EXPAND 3, 0
 687
 688 5:
 689         .word 0x03030303
 690         .word 2b
 691         .word 3b
 692         .word 4b
 693         .word 0x02020202
 694         .word 0xFCFCFCFC >> 2
 695         .word 0x0F0F0F0F
 696         .word 0x01010101