Parse 'cslg' atom to retrieve dts shift when 'ctts' duration is negative.

[frescor/ffmpeg.git] / libavformat / mov.c
diff --git a/libavformat/mov.c b/libavformat/mov.c

index 9ef1f32ff565deb684fd844d5c55ac55263d6449..3cc9812a4d1ef787c7ae9f3c64e290227e977e1f 100644 (file)
--- a/libavformat/mov.c
+++ b/libavformat/mov.c
@@ -33,6 +33,7 @@
  #include "isom.h"
  #include "libavcodec/mpeg4audio.h"
  #include "libavcodec/mpegaudiodata.h"
+#include "libavcodec/get_bits.h"
  
  #if CONFIG_ZLIB
  #include <zlib.h>
@@ -79,7 +80,95 @@ typedef struct MOVParseTableEntry {
  
  static const MOVParseTableEntry mov_default_parse_table[];
  
-static int mov_read_udta_string(MOVContext *c, ByteIOContext *pb, MOVAtom atom);
+static int mov_metadata_trkn(MOVContext *c, ByteIOContext *pb, unsigned len)
+{
+    char buf[16];
+
+    get_be16(pb); // unknown
+    snprintf(buf, sizeof(buf), "%d", get_be16(pb));
+    av_metadata_set(&c->fc->metadata, "track", buf);
+
+    get_be16(pb); // total tracks
+
+    return 0;
+}
+
+static int mov_read_udta_string(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
+{
+#ifdef MOV_EXPORT_ALL_METADATA
+    char tmp_key[5];
+#endif
+    char str[1024], key2[16], language[4] = {0};
+    const char *key = NULL;
+    uint16_t str_size;
+    int (*parse)(MOVContext*, ByteIOContext*, unsigned) = NULL;
+
+    switch (atom.type) {
+    case MKTAG(0xa9,'n','a','m'): key = "title";     break;
+    case MKTAG(0xa9,'a','u','t'):
+    case MKTAG(0xa9,'A','R','T'):
+    case MKTAG(0xa9,'w','r','t'): key = "author";    break;
+    case MKTAG(0xa9,'c','p','y'): key = "copyright"; break;
+    case MKTAG(0xa9,'c','m','t'):
+    case MKTAG(0xa9,'i','n','f'): key = "comment";   break;
+    case MKTAG(0xa9,'a','l','b'): key = "album";     break;
+    case MKTAG(0xa9,'d','a','y'): key = "year";      break;
+    case MKTAG(0xa9,'g','e','n'): key = "genre";     break;
+    case MKTAG(0xa9,'t','o','o'):
+    case MKTAG(0xa9,'e','n','c'): key = "muxer";     break;
+    case MKTAG( 't','r','k','n'): key = "track";
+        parse = mov_metadata_trkn; break;
+    }
+
+    if (c->itunes_metadata && atom.size > 8) {
+        int data_size = get_be32(pb);
+        int tag = get_le32(pb);
+        if (tag == MKTAG('d','a','t','a')) {
+            get_be32(pb); // type
+            get_be32(pb); // unknown
+            str_size = data_size - 16;
+            atom.size -= 16;
+        } else return 0;
+    } else if (atom.size > 4 && key && !c->itunes_metadata) {
+        str_size = get_be16(pb); // string length
+        ff_mov_lang_to_iso639(get_be16(pb), language);
+        atom.size -= 4;
+    } else
+        str_size = atom.size;
+
+#ifdef MOV_EXPORT_ALL_METADATA
+    if (!key) {
+        snprintf(tmp_key, 5, "%.4s", (char*)&atom.type);
+        key = tmp_key;
+    }
+#endif
+
+    if (!key)
+        return 0;
+    if (atom.size < 0)
+        return -1;
+
+    str_size = FFMIN3(sizeof(str)-1, str_size, atom.size);
+
+    if (parse)
+        parse(c, pb, str_size);
+    else {
+        get_buffer(pb, str, str_size);
+        str[str_size] = 0;
+        av_metadata_set(&c->fc->metadata, key, str);
+        if (*language && strcmp(language, "und")) {
+            snprintf(key2, sizeof(key2), "%s-%s", key, language);
+            av_metadata_set(&c->fc->metadata, key2, str);
+        }
+    }
+#ifdef DEBUG_METADATA
+    av_log(c->fc, AV_LOG_DEBUG, "lang \"%3s\" ", language);
+    av_log(c->fc, AV_LOG_DEBUG, "tag \"%s\" value \"%s\" atom \"%.4s\" %d %lld\n",
+           key, str, (char*)&atom.type, str_size, atom.size);
+#endif
+
+    return 0;
+}
  
  static int mov_read_default(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
  {
@@ -241,10 +330,8 @@ static int mov_read_hdlr(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
      ctype = get_le32(pb);
      type = get_le32(pb); /* component subtype */
  
-    dprintf(c->fc, "ctype= %c%c%c%c (0x%08x)\n", *((char *)&ctype), ((char *)&ctype)[1],
-            ((char *)&ctype)[2], ((char *)&ctype)[3], (int) ctype);
-    dprintf(c->fc, "stype= %c%c%c%c\n",
-            *((char *)&type), ((char *)&type)[1], ((char *)&type)[2], ((char *)&type)[3]);
+    dprintf(c->fc, "ctype= %.4s (0x%08x)\n", (char*)&ctype, ctype);
+    dprintf(c->fc, "stype= %.4s\n", (char*)&type);
  
      if     (type == MKTAG('v','i','d','e'))
          st->codec->codec_type = CODEC_TYPE_VIDEO;
@@ -252,9 +339,9 @@ static int mov_read_hdlr(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
          st->codec->codec_type = CODEC_TYPE_AUDIO;
      else if(type == MKTAG('m','1','a',' '))
          st->codec->codec_id = CODEC_ID_MP2;
-    else if(type == MKTAG('s','u','b','p')) {
+    else if(type == MKTAG('s','u','b','p'))
          st->codec->codec_type = CODEC_TYPE_SUBTITLE;
-    }
+
      get_be32(pb); /* component  manufacture */
      get_be32(pb); /* component flags */
      get_be32(pb); /* component flags mask */
@@ -293,11 +380,12 @@ static int mp4_read_descr(MOVContext *c, ByteIOContext *pb, int *tag)
  #define MP4DecSpecificDescrTag          0x05
  
  static const AVCodecTag mp4_audio_types[] = {
-    { CODEC_ID_MP3ON4, 29 }, /* old mp3on4 draft */
-    { CODEC_ID_MP3ON4, 32 }, /* layer 1 */
-    { CODEC_ID_MP3ON4, 33 }, /* layer 2 */
-    { CODEC_ID_MP3ON4, 34 }, /* layer 3 */
-    { CODEC_ID_NONE,    0 },
+    { CODEC_ID_MP3ON4, AOT_PS   }, /* old mp3on4 draft */
+    { CODEC_ID_MP3ON4, AOT_L1   }, /* layer 1 */
+    { CODEC_ID_MP3ON4, AOT_L2   }, /* layer 2 */
+    { CODEC_ID_MP3ON4, AOT_L3   }, /* layer 3 */
+    { CODEC_ID_MP4ALS, AOT_ALS  }, /* MPEG-4 ALS */
+    { CODEC_ID_NONE,   AOT_NULL },
  };
  
  static int mov_read_esds(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
@@ -794,9 +882,9 @@ static int mov_read_stsd(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
                          color_table = ff_qt_default_palette_256;
  
                      for (j = 0; j < color_count; j++) {
-                        r = color_table[j * 4 + 0];
-                        g = color_table[j * 4 + 1];
-                        b = color_table[j * 4 + 2];
+                        r = color_table[j * 3 + 0];
+                        g = color_table[j * 3 + 1];
+                        b = color_table[j * 3 + 2];
                          st->codec->palctrl->palette[j] =
                              (r << 16) | (g << 8) | (b);
                      }
@@ -910,7 +998,8 @@ static int mov_read_stsd(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
              // ttxt stsd contains display flags, justification, background
              // color, fonts, and default styles, so fake an atom to read it
              MOVAtom fake_atom = { .size = size - (url_ftell(pb) - start_pos) };
-            mov_read_glbl(c, pb, fake_atom);
+            if (format != AV_RL32("mp4s")) // mp4s contains a regular esds atom
+                mov_read_glbl(c, pb, fake_atom);
              st->codec->codec_id= id;
              st->codec->width = sc->width;
              st->codec->height = sc->height;
@@ -946,6 +1035,9 @@ static int mov_read_stsd(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
  #endif
      /* no ifdef since parameters are always those */
      case CODEC_ID_QCELP:
+        // force sample rate for qcelp when not stored in mov
+        if (st->codec->codec_tag != MKTAG('Q','c','l','p'))
+            st->codec->sample_rate = 8000;
          st->codec->frame_size= 160;
          st->codec->channels= 1; /* really needed */
          break;
@@ -1041,14 +1133,23 @@ static int mov_read_stsz(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
  {
      AVStream *st = c->fc->streams[c->fc->nb_streams-1];
      MOVStreamContext *sc = st->priv_data;
-    unsigned int i, entries, sample_size;
+    unsigned int i, entries, sample_size, field_size, num_bytes;
+    GetBitContext gb;
+    unsigned char* buf;
  
      get_byte(pb); /* version */
      get_be24(pb); /* flags */
  
-    sample_size = get_be32(pb);
-    if (!sc->sample_size) /* do not overwrite value computed in stsd */
-        sc->sample_size = sample_size;
+    if (atom.type == MKTAG('s','t','s','z')) {
+        sample_size = get_be32(pb);
+        if (!sc->sample_size) /* do not overwrite value computed in stsd */
+            sc->sample_size = sample_size;
+        field_size = 32;
+    } else {
+        sample_size = 0;
+        get_be24(pb); /* reserved */
+        field_size = get_byte(pb);
+    }
      entries = get_be32(pb);
  
      dprintf(c->fc, "sample_size = %d sample_count = %d\n", sc->sample_size, entries);
@@ -1057,14 +1158,37 @@ static int mov_read_stsz(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
      if (sample_size)
          return 0;
  
+    if (field_size != 4 && field_size != 8 && field_size != 16 && field_size != 32) {
+        av_log(c->fc, AV_LOG_ERROR, "Invalid sample field size %d\n", field_size);
+        return -1;
+    }
+
      if(entries >= UINT_MAX / sizeof(int))
          return -1;
      sc->sample_sizes = av_malloc(entries * sizeof(int));
      if (!sc->sample_sizes)
          return AVERROR(ENOMEM);
  
+    num_bytes = (entries*field_size+4)>>3;
+
+    buf = av_malloc(num_bytes+FF_INPUT_BUFFER_PADDING_SIZE);
+    if (!buf) {
+        av_freep(&sc->sample_sizes);
+        return AVERROR(ENOMEM);
+    }
+
+    if (get_buffer(pb, buf, num_bytes) < num_bytes) {
+        av_freep(&sc->sample_sizes);
+        av_free(buf);
+        return -1;
+    }
+
+    init_get_bits(&gb, buf, 8*num_bytes);
+
      for(i=0; i<entries; i++)
-        sc->sample_sizes[i] = get_be32(pb);
+        sc->sample_sizes[i] = get_bits_long(&gb, field_size);
+
+    av_free(buf);
      return 0;
  }
  
@@ -1112,6 +1236,31 @@ static int mov_read_stts(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
      return 0;
  }
  
+static int mov_read_cslg(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
+{
+    AVStream *st;
+    MOVStreamContext *sc;
+
+    if (c->fc->nb_streams < 1) // will happen with jp2 files
+        return 0;
+    st = c->fc->streams[c->fc->nb_streams-1];
+    sc = st->priv_data;
+
+    get_be32(pb); // version + flags
+
+    sc->dts_shift = get_be32(pb);
+    dprintf(c->fc, "dts shift %d\n", sc->dts_shift);
+
+    sc->time_rate= av_gcd(sc->time_rate, FFABS(sc->dts_shift));
+
+    get_be32(pb); // least dts to pts delta
+    get_be32(pb); // greatest dts to pts delta
+    get_be32(pb); // pts start
+    get_be32(pb); // pts end
+
+    return 0;
+}
+
  static int mov_read_ctts(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
  {
      AVStream *st = c->fc->streams[c->fc->nb_streams-1];
@@ -1135,10 +1284,6 @@ static int mov_read_ctts(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
          int count    =get_be32(pb);
          int duration =get_be32(pb);
  
-        if (duration < 0) {
-            sc->wrong_dts = 1;
-            st->codec->has_b_frames = 1;
-        }
          sc->ctts_data[i].count   = count;
          sc->ctts_data[i].duration= duration;
  
@@ -1159,8 +1304,15 @@ static void mov_build_index(MOVContext *mov, AVStream *st)
  
      /* adjust first dts according to edit list */
      if (sc->time_offset) {
+        int rescaled = sc->time_offset < 0 ? av_rescale(sc->time_offset, sc->time_scale, mov->time_scale) : sc->time_offset;
          assert(sc->time_offset % sc->time_rate == 0);
-        current_dts = - (sc->time_offset / sc->time_rate);
+        current_dts = - (rescaled / sc->time_rate);
+        if (sc->ctts_data && sc->ctts_data[0].duration / sc->stts_data[0].duration > 16) {
+            /* more than 16 frames delay, dts are likely wrong
+               this happens with files created by iMovie */
+            sc->wrong_dts = 1;
+            st->codec->has_b_frames = 1;
+        }
      }
  
      /* only use old uncompressed audio chunk demuxing when stts specifies it */
@@ -1172,6 +1324,9 @@ static void mov_build_index(MOVContext *mov, AVStream *st)
          unsigned int distance = 0;
          int key_off = sc->keyframes && sc->keyframes[0] == 1;
  
+        sc->dts_shift /= sc->time_rate;
+        current_dts -= sc->dts_shift;
+
          st->nb_frames = sc->sample_count;
          for (i = 0; i < sc->chunk_count; i++) {
              current_offset = sc->chunk_offsets[i];
@@ -1320,6 +1475,9 @@ static int mov_read_trak(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
  #if CONFIG_H263_DECODER
      case CODEC_ID_H263:
  #endif
+#if CONFIG_H264_DECODER
+    case CODEC_ID_H264:
+#endif
  #if CONFIG_MPEG4_DECODER
      case CODEC_ID_MPEG4:
  #endif
@@ -1361,86 +1519,6 @@ static int mov_read_meta(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
      return 0;
  }
  
-static int mov_read_trkn(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
-{
-    char track[16];
-    get_be32(pb); // type
-    get_be32(pb); // unknown
-    snprintf(track, sizeof(track), "%d", get_be32(pb));
-    av_metadata_set(&c->fc->metadata, "track", track);
-    dprintf(c->fc, "%.4s %s\n", (char*)&atom.type, track);
-    return 0;
-}
-
-static int mov_read_udta_string(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
-{
-#ifdef MOV_EXPORT_ALL_METADATA
-    char tmp_key[5];
-#endif
-    char str[1024], key2[16], language[4] = {0};
-    const char *key = NULL;
-    uint16_t str_size;
-
-    switch (atom.type) {
-    case MKTAG(0xa9,'n','a','m'): key = "title";     break;
-    case MKTAG(0xa9,'a','u','t'):
-    case MKTAG(0xa9,'A','R','T'):
-    case MKTAG(0xa9,'w','r','t'): key = "author";    break;
-    case MKTAG(0xa9,'c','p','y'): key = "copyright"; break;
-    case MKTAG(0xa9,'c','m','t'):
-    case MKTAG(0xa9,'i','n','f'): key = "comment";   break;
-    case MKTAG(0xa9,'a','l','b'): key = "album";     break;
-    case MKTAG(0xa9,'d','a','y'): key = "year";      break;
-    case MKTAG(0xa9,'g','e','n'): key = "genre";     break;
-    case MKTAG(0xa9,'t','o','o'):
-    case MKTAG(0xa9,'e','n','c'): key = "muxer";     break;
-    }
-
-    if (c->itunes_metadata && atom.size > 8) {
-        int data_size = get_be32(pb);
-        int tag = get_le32(pb);
-        if (tag == MKTAG('d','a','t','a')) {
-            get_be32(pb); // type
-            get_be32(pb); // unknown
-            str_size = data_size - 16;
-            atom.size -= 16;
-        } else return 0;
-    } else if (atom.size > 4 && key && !c->itunes_metadata) {
-        str_size = get_be16(pb); // string length
-        ff_mov_lang_to_iso639(get_be16(pb), language);
-        atom.size -= 4;
-    } else
-        str_size = atom.size;
-
-#ifdef MOV_EXPORT_ALL_METADATA
-    if (!key) {
-        snprintf(tmp_key, 5, "%.4s", (char*)&atom.type);
-        key = tmp_key;
-    }
-#endif
-
-    if (!key)
-        return 0;
-    if (atom.size < 0)
-        return -1;
-
-    str_size = FFMIN3(sizeof(str)-1, str_size, atom.size);
-    get_buffer(pb, str, str_size);
-    str[str_size] = 0;
-    av_metadata_set(&c->fc->metadata, key, str);
-    if (*language && strcmp(language, "und")) {
-        snprintf(key2, sizeof(key2), "%s-%s", key, language);
-        av_metadata_set(&c->fc->metadata, key2, str);
-    }
-#ifdef DEBUG_METADATA
-    av_log(c->fc, AV_LOG_DEBUG, "lang \"%3s\" ", language);
-    av_log(c->fc, AV_LOG_DEBUG, "tag \"%s\" value \"%s\" atom \"%.4s\" %d %lld\n",
-           key, str, (char*)&atom.type, str_size, atom.size);
-#endif
-
-    return 0;
-}
-
  static int mov_read_tkhd(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
  {
      int i;
@@ -1735,12 +1813,12 @@ static int mov_read_elst(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
  
      for(i=0; i<edit_count; i++){
          int time;
-        get_be32(pb); /* Track duration */
+        int duration = get_be32(pb); /* Track duration */
          time = get_be32(pb); /* Media time */
          get_be32(pb); /* Media rate */
-        if (i == 0 && time != -1) {
-            sc->time_offset = time;
-            sc->time_rate = av_gcd(sc->time_rate, time);
+        if (i == 0 && time >= -1) {
+            sc->time_offset = time != -1 ? time : -duration;
+            sc->time_rate = av_gcd(sc->time_rate, FFABS(sc->time_offset));
          }
      }
  
@@ -1755,6 +1833,7 @@ static int mov_read_elst(MOVContext *c, ByteIOContext *pb, MOVAtom atom)
  static const MOVParseTableEntry mov_default_parse_table[] = {
  { MKTAG('a','v','s','s'), mov_read_extradata },
  { MKTAG('c','o','6','4'), mov_read_stco },
+{ MKTAG('c','s','l','g'), mov_read_cslg },
  { MKTAG('c','t','t','s'), mov_read_ctts }, /* composition time to sample */
  { MKTAG('d','i','n','f'), mov_read_default },
  { MKTAG('d','r','e','f'), mov_read_dref },
@@ -1787,12 +1866,12 @@ static const MOVParseTableEntry mov_default_parse_table[] = {
  { MKTAG('s','t','s','s'), mov_read_stss }, /* sync sample */
  { MKTAG('s','t','s','z'), mov_read_stsz }, /* sample size */
  { MKTAG('s','t','t','s'), mov_read_stts },
+{ MKTAG('s','t','z','2'), mov_read_stsz }, /* compact sample size */
  { MKTAG('t','k','h','d'), mov_read_tkhd }, /* track header */
  { MKTAG('t','f','h','d'), mov_read_tfhd }, /* track fragment header */
  { MKTAG('t','r','a','k'), mov_read_trak },
  { MKTAG('t','r','a','f'), mov_read_default },
  { MKTAG('t','r','e','x'), mov_read_trex },
-{ MKTAG('t','r','k','n'), mov_read_trkn },
  { MKTAG('t','r','u','n'), mov_read_trun },
  { MKTAG('u','d','t','a'), mov_read_default },
  { MKTAG('w','a','v','e'), mov_read_wave },
@@ -1934,7 +2013,7 @@ static int mov_read_packet(AVFormatContext *s, AVPacket *pkt)
      pkt->dts = sample->timestamp;
      if (sc->ctts_data) {
          assert(sc->ctts_data[sc->ctts_index].duration % sc->time_rate == 0);
-        pkt->pts = pkt->dts + sc->ctts_data[sc->ctts_index].duration / sc->time_rate;
+        pkt->pts = pkt->dts + sc->dts_shift + sc->ctts_data[sc->ctts_index].duration / sc->time_rate;
          /* update ctts context */
          sc->ctts_sample++;
          if (sc->ctts_index < sc->ctts_count &&