youtube-dl/youtube_dl/extractor/sixplay.py

# coding: utf-8
from __future__ import unicode_literals

import re

from .common import InfoExtractor
from ..compat import (
    compat_parse_qs,
    compat_str,
    compat_urllib_parse_urlparse,
)
from ..utils import (
    determine_ext,
    int_or_none,
    try_get,
    qualities,
)


class SixPlayIE(InfoExtractor):
    IE_NAME = '6play'
    _VALID_URL = r'(?:6play:|https?://(?:www\.)?6play\.fr/.+?-c_)(?P<id>[0-9]+)'
    _TEST = {
        'url': 'http://www.6play.fr/le-meilleur-patissier-p_1807/le-meilleur-patissier-special-fetes-mercredi-a-21-00-sur-m6-c_11638450',
        'md5': '42310bffe4ba3982db112b9cd3467328',
        'info_dict': {
            'id': '11638450',
            'ext': 'mp4',
            'title': 'Le Meilleur Pâtissier, spécial fêtes mercredi à 21:00 sur M6',
            'description': 'md5:308853f6a5f9e2d55a30fc0654de415f',
            'duration': 39,
            'series': 'Le meilleur pâtissier',
        },
        'params': {
            'skip_download': True,
        },
    }

    def _real_extract(self, url):
        video_id = self._match_id(url)

        data = self._download_json(
            'https://pc.middleware.6play.fr/6play/v2/platforms/m6group_web/services/6play/videos/clip_%s' % video_id,
            video_id, query={
                'csa': 5,
                'with': 'clips',
            })

        clip_data = data['clips'][0]
        title = clip_data['title']

        urls = []
        quality_key = qualities(['lq', 'sd', 'hq', 'hd'])
        formats = []
        subtitles = {}
        for asset in clip_data['assets']:
            asset_url = asset.get('full_physical_path')
            protocol = asset.get('protocol')
            if not asset_url or protocol == 'primetime' or asset_url in urls:
                continue
            urls.append(asset_url)
            container = asset.get('video_container')
            ext = determine_ext(asset_url)
            if protocol == 'http_subtitle' or ext == 'vtt':
                subtitles.setdefault('fr', []).append({'url': asset_url})
                continue
            if container == 'm3u8' or ext == 'm3u8':
                if protocol == 'usp' and not compat_parse_qs(compat_urllib_parse_urlparse(asset_url).query).get('token', [None])[0]:
                    asset_url = re.sub(r'/([^/]+)\.ism/[^/]*\.m3u8', r'/\1.ism/\1.m3u8', asset_url)
                    formats.extend(self._extract_m3u8_formats(
                        asset_url, video_id, 'mp4', 'm3u8_native',
                        m3u8_id='hls', fatal=False))
                    formats.extend(self._extract_f4m_formats(
                        asset_url.replace('.m3u8', '.f4m'),
                        video_id, f4m_id='hds', fatal=False))
                    formats.extend(self._extract_mpd_formats(
                        asset_url.replace('.m3u8', '.mpd'),
                        video_id, mpd_id='dash', fatal=False))
                    formats.extend(self._extract_ism_formats(
                        re.sub(r'/[^/]+\.m3u8', '/Manifest', asset_url),
                        video_id, ism_id='mss', fatal=False))
                else:
                    formats.extend(self._extract_m3u8_formats(
                        asset_url, video_id, 'mp4', 'm3u8_native',
                        m3u8_id='hls', fatal=False))
            elif container == 'mp4' or ext == 'mp4':
                quality = asset.get('video_quality')
                formats.append({
                    'url': asset_url,
                    'format_id': quality,
                    'quality': quality_key(quality),
                    'ext': ext,
                })
        self._sort_formats(formats)

        def get(getter):
            for src in (data, clip_data):
                v = try_get(src, getter, compat_str)
                if v:
                    return v

        return {
            'id': video_id,
            'title': title,
            'description': get(lambda x: x['description']),
            'duration': int_or_none(clip_data.get('duration')),
            'series': get(lambda x: x['program']['title']),
            'formats': formats,
            'subtitles': subtitles,
        }
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`# coding: utf-8`
			`from __future__ import unicode_literals`

[sixplay] improve extraction - skip drm protected formats - extract more and better formats - skip duplicate asset urls 2017-02-09 05:56:10 +08:00			`import re`

[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`from .common import InfoExtractor`
[6play] do no modify asset urls with a token(#15248) 2018-02-01 18:22:05 +08:00			`from ..compat import (`
			`compat_parse_qs,`
			`compat_str,`
			`compat_urllib_parse_urlparse,`
			`)`
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`from ..utils import (`
use mimetype2ext to determine manifest ext in multiple extractors 2016-07-06 16:11:46 +08:00			`determine_ext,`
[6play] Fix extraction (closes #12011) 2017-02-09 00:15:39 +08:00			`int_or_none,`
			`try_get,`
			`qualities,`
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`)`


			`class SixPlayIE(InfoExtractor):`
[sixplay] improve extraction - skip drm protected formats - extract more and better formats - skip duplicate asset urls 2017-02-09 05:56:10 +08:00			`IE_NAME = '6play'`
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`_VALID_URL = r'(?:6play:\|https?://(?:www\.)?6play\.fr/.+?-c_)(?P<id>[0-9]+)'`
			`_TEST = {`
[6play] Fix extraction (closes #12011) 2017-02-09 00:15:39 +08:00			`'url': 'http://www.6play.fr/le-meilleur-patissier-p_1807/le-meilleur-patissier-special-fetes-mercredi-a-21-00-sur-m6-c_11638450',`
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`'md5': '42310bffe4ba3982db112b9cd3467328',`
			`'info_dict': {`
[6play] Fix extraction (closes #12011) 2017-02-09 00:15:39 +08:00			`'id': '11638450',`
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`'ext': 'mp4',`
[6play] Fix extraction (closes #12011) 2017-02-09 00:15:39 +08:00			`'title': 'Le Meilleur Pâtissier, spécial fêtes mercredi à 21:00 sur M6',`
			`'description': 'md5:308853f6a5f9e2d55a30fc0654de415f',`
			`'duration': 39,`
			`'series': 'Le meilleur pâtissier',`
			`},`
			`'params': {`
			`'skip_download': True,`
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`},`
			`}`

			`def _real_extract(self, url):`
			`video_id = self._match_id(url)`
[6play] Fix extraction (closes #12011) 2017-02-09 00:15:39 +08:00
			`data = self._download_json(`
			`'https://pc.middleware.6play.fr/6play/v2/platforms/m6group_web/services/6play/videos/clip_%s' % video_id,`
			`video_id, query={`
			`'csa': 5,`
			`'with': 'clips',`
			`})`

			`clip_data = data['clips'][0]`
			`title = clip_data['title']`
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00
[sixplay] improve extraction - skip drm protected formats - extract more and better formats - skip duplicate asset urls 2017-02-09 05:56:10 +08:00			`urls = []`
[sixplay] Rename preference key to quality in format dict 2016-07-01 04:57:59 +08:00			`quality_key = qualities(['lq', 'sd', 'hq', 'hd'])`
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`formats = []`
[6play] Extract subtitles (closes #15541) 2018-02-10 01:04:08 +08:00			`subtitles = {}`
[6play] Fix extraction (closes #12011) 2017-02-09 00:15:39 +08:00			`for asset in clip_data['assets']:`
			`asset_url = asset.get('full_physical_path')`
[sixplay] improve extraction - skip drm protected formats - extract more and better formats - skip duplicate asset urls 2017-02-09 05:56:10 +08:00			`protocol = asset.get('protocol')`
			`if not asset_url or protocol == 'primetime' or asset_url in urls:`
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`continue`
[sixplay] improve extraction - skip drm protected formats - extract more and better formats - skip duplicate asset urls 2017-02-09 05:56:10 +08:00			`urls.append(asset_url)`
[6play] Fix extraction (closes #12011) 2017-02-09 00:15:39 +08:00			`container = asset.get('video_container')`
			`ext = determine_ext(asset_url)`
[6play] Extract subtitles (closes #15541) 2018-02-10 01:04:08 +08:00			`if protocol == 'http_subtitle' or ext == 'vtt':`
			`subtitles.setdefault('fr', []).append({'url': asset_url})`
			`continue`
[6play] Fix extraction (closes #12011) 2017-02-09 00:15:39 +08:00			`if container == 'm3u8' or ext == 'm3u8':`
[6play] do no modify asset urls with a token(#15248) 2018-02-01 18:22:05 +08:00			`if protocol == 'usp' and not compat_parse_qs(compat_urllib_parse_urlparse(asset_url).query).get('token', [None])[0]:`
[sixplay] improve extraction - skip drm protected formats - extract more and better formats - skip duplicate asset urls 2017-02-09 05:56:10 +08:00			`asset_url = re.sub(r'/([^/]+)\.ism/[^/]*\.m3u8', r'/\1.ism/\1.m3u8', asset_url)`
			`formats.extend(self._extract_m3u8_formats(`
			`asset_url, video_id, 'mp4', 'm3u8_native',`
			`m3u8_id='hls', fatal=False))`
			`formats.extend(self._extract_f4m_formats(`
			`asset_url.replace('.m3u8', '.f4m'),`
			`video_id, f4m_id='hds', fatal=False))`
			`formats.extend(self._extract_mpd_formats(`
			`asset_url.replace('.m3u8', '.mpd'),`
			`video_id, mpd_id='dash', fatal=False))`
			`formats.extend(self._extract_ism_formats(`
[sixplay] use raw string for regex 2017-02-10 16:34:23 +08:00			`re.sub(r'/[^/]+\.m3u8', '/Manifest', asset_url),`
[sixplay] improve extraction - skip drm protected formats - extract more and better formats - skip duplicate asset urls 2017-02-09 05:56:10 +08:00			`video_id, ism_id='mss', fatal=False))`
			`else:`
			`formats.extend(self._extract_m3u8_formats(`
			`asset_url, video_id, 'mp4', 'm3u8_native',`
			`m3u8_id='hls', fatal=False))`
[6play] Fix extraction (closes #12011) 2017-02-09 00:15:39 +08:00			`elif container == 'mp4' or ext == 'mp4':`
			`quality = asset.get('video_quality')`
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`formats.append({`
[6play] Fix extraction (closes #12011) 2017-02-09 00:15:39 +08:00			`'url': asset_url,`
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`'format_id': quality,`
[sixplay] Rename preference key to quality in format dict 2016-07-01 04:57:59 +08:00			`'quality': quality_key(quality),`
use mimetype2ext to determine manifest ext in multiple extractors 2016-07-06 16:11:46 +08:00			`'ext': ext,`
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`})`
			`self._sort_formats(formats)`

[6play] Fix extraction (closes #12011) 2017-02-09 00:15:39 +08:00			`def get(getter):`
			`for src in (data, clip_data):`
			`v = try_get(src, getter, compat_str)`
			`if v:`
			`return v`

[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`return {`
			`'id': video_id,`
[6play] Fix extraction (closes #12011) 2017-02-09 00:15:39 +08:00			`'title': title,`
			`'description': get(lambda x: x['description']),`
			`'duration': int_or_none(clip_data.get('duration')),`
			`'series': get(lambda x: x['program']['title']),`
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`'formats': formats,`
[6play] Extract subtitles (closes #15541) 2018-02-10 01:04:08 +08:00			`'subtitles': subtitles,`
[sixplay] Add new extractor(closes #2183) 2016-06-30 20:50:49 +08:00			`}`