youtube-dl/youtube_dl/extractor/clipfish.py

from __future__ import unicode_literals

import re
import time
import xml.etree.ElementTree

from .common import InfoExtractor
from ..utils import (
    ExtractorError,
    parse_duration,
)


class ClipfishIE(InfoExtractor):
    IE_NAME = 'clipfish'

    _VALID_URL = r'^https?://(?:www\.)?clipfish\.de/.*?/video/(?P<id>[0-9]+)/'
    _TEST = {
        'url': 'http://www.clipfish.de/special/game-trailer/video/3966754/fifa-14-e3-2013-trailer/',
        'md5': '2521cd644e862936cf2e698206e47385',
        'info_dict': {
            'id': '3966754',
            'ext': 'mp4',
            'title': 'FIFA 14 - E3 2013 Trailer',
            'duration': 82,
        },
        'skip': 'Blocked in the US'
    }

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        video_id = mobj.group(1)

        info_url = ('http://www.clipfish.de/devxml/videoinfo/%s?ts=%d' %
                    (video_id, int(time.time())))
        doc = self._download_xml(
            info_url, video_id, note='Downloading info page')
        title = doc.find('title').text
        video_url = doc.find('filename').text
        if video_url is None:
            xml_bytes = xml.etree.ElementTree.tostring(doc)
            raise ExtractorError('Cannot find video URL in document %r' %
                                 xml_bytes)
        thumbnail = doc.find('imageurl').text
        duration = parse_duration(doc.find('duration').text)

        return {
            'id': video_id,
            'title': title,
            'url': video_url,
            'thumbnail': thumbnail,
            'duration': duration,
        }
[clipfish] Modernize 2014-03-25 05:30:32 +08:00			`from __future__ import unicode_literals`

[clipfish] Add extractor (Fixes #1760) 2013-11-24 14:51:44 +08:00			`import re`
			`import time`
[clipfish] Effect a better error message (#1842) 2013-11-28 01:33:51 +08:00			`import xml.etree.ElementTree`
[clipfish] Add extractor (Fixes #1760) 2013-11-24 14:51:44 +08:00
			`from .common import InfoExtractor`
[clipfish] Modernize 2014-03-25 05:30:32 +08:00			`from ..utils import (`
			`ExtractorError,`
			`parse_duration,`
			`)`
[clipfish] Add extractor (Fixes #1760) 2013-11-24 14:51:44 +08:00

			`class ClipfishIE(InfoExtractor):`
[clipfish] Modernize 2014-03-25 05:30:32 +08:00			`IE_NAME = 'clipfish'`
[clipfish] Add extractor (Fixes #1760) 2013-11-24 14:51:44 +08:00
			`_VALID_URL = r'^https?://(?:www\.)?clipfish\.de/.*?/video/(?P<id>[0-9]+)/'`
			`_TEST = {`
[clipfish] Modernize 2014-03-25 05:30:32 +08:00			`'url': 'http://www.clipfish.de/special/game-trailer/video/3966754/fifa-14-e3-2013-trailer/',`
			`'md5': '2521cd644e862936cf2e698206e47385',`
			`'info_dict': {`
			`'id': '3966754',`
			`'ext': 'mp4',`
			`'title': 'FIFA 14 - E3 2013 Trailer',`
			`'duration': 82,`
[clipfish] Skip test on travis 2013-12-01 08:16:20 +08:00			`},`
Remove useless u prefixes 2014-11-26 20:06:02 +08:00			`'skip': 'Blocked in the US'`
[clipfish] Add extractor (Fixes #1760) 2013-11-24 14:51:44 +08:00			`}`

			`def _real_extract(self, url):`
			`mobj = re.match(self._VALID_URL, url)`
			`video_id = mobj.group(1)`

			`info_url = ('http://www.clipfish.de/devxml/videoinfo/%s?ts=%d' %`
			`(video_id, int(time.time())))`
Use the new '_download_xml' helper in more extractors 2013-11-27 01:48:52 +08:00			`doc = self._download_xml(`
Remove useless u prefixes 2014-11-26 20:06:02 +08:00			`info_url, video_id, note='Downloading info page')`
[clipfish] Add extractor (Fixes #1760) 2013-11-24 14:51:44 +08:00			`title = doc.find('title').text`
			`video_url = doc.find('filename').text`
[clipfish] Effect a better error message (#1842) 2013-11-28 01:33:51 +08:00			`if video_url is None:`
			`xml_bytes = xml.etree.ElementTree.tostring(doc)`
[clipfish] Modernize 2014-03-25 05:30:32 +08:00			`raise ExtractorError('Cannot find video URL in document %r' %`
[clipfish] Effect a better error message (#1842) 2013-11-28 01:33:51 +08:00			`xml_bytes)`
[clipfish] Add extractor (Fixes #1760) 2013-11-24 14:51:44 +08:00			`thumbnail = doc.find('imageurl').text`
[clipfish] Modernize 2014-03-25 05:30:32 +08:00			`duration = parse_duration(doc.find('duration').text)`
[clipfish] Add extractor (Fixes #1760) 2013-11-24 14:51:44 +08:00
			`return {`
			`'id': video_id,`
			`'title': title,`
			`'url': video_url,`
			`'thumbnail': thumbnail,`
			`'duration': duration,`
			`}`