2014-01-31 04:48:00 +08:00
# encoding: utf-8
from __future__ import unicode_literals
import re
from . common import InfoExtractor
2015-05-10 03:03:26 +08:00
from . . compat import compat_urlparse
2014-02-10 22:07:41 +08:00
from . . utils import (
2015-05-10 03:03:26 +08:00
determine_ext ,
2014-02-10 22:07:41 +08:00
int_or_none ,
2015-06-17 22:28:47 +08:00
remove_end ,
2014-02-28 23:52:06 +08:00
unified_strdate ,
ExtractorError ,
2014-02-10 22:07:41 +08:00
)
2014-01-31 04:48:00 +08:00
class LifeNewsIE ( InfoExtractor ) :
IE_NAME = ' lifenews '
IE_DESC = ' LIFE | NEWS '
2016-03-21 23:36:32 +08:00
_VALID_URL = r ' https?://lifenews \ .ru/(?:mobile/)?(?P<section>news|video)/(?P<id> \ d+) '
2014-02-10 22:07:41 +08:00
2015-05-04 01:24:19 +08:00
_TESTS = [ {
2016-03-02 00:59:11 +08:00
# single video embedded via video/source
' url ' : ' http://lifenews.ru/news/98736 ' ,
' md5 ' : ' 77c95eaefaca216e32a76a343ad89d23 ' ,
2014-01-31 04:48:00 +08:00
' info_dict ' : {
2016-03-02 00:59:11 +08:00
' id ' : ' 98736 ' ,
2014-02-10 22:07:41 +08:00
' ext ' : ' mp4 ' ,
2016-03-02 00:59:11 +08:00
' title ' : ' Мужчина нашел дома архив оборонного завода ' ,
' description ' : ' md5:3b06b1b39b5e2bea548e403d99b8bf26 ' ,
' upload_date ' : ' 20120805 ' ,
2014-01-31 04:48:00 +08:00
}
2015-05-04 01:24:19 +08:00
} , {
2016-03-02 00:59:11 +08:00
# single video embedded via iframe
2015-05-04 01:24:19 +08:00
' url ' : ' http://lifenews.ru/news/152125 ' ,
' md5 ' : ' 77d19a6f0886cd76bdbf44b4d971a273 ' ,
' info_dict ' : {
' id ' : ' 152125 ' ,
' ext ' : ' mp4 ' ,
' title ' : ' В Сети появилось видео захвата «Правым сектором» колхозных полей ' ,
' description ' : ' Жители двух поселков Днепропетровской области не простили радикалам угрозу лишения плодородных земель и пошли в лобовую. ' ,
' upload_date ' : ' 20150402 ' ,
}
2015-05-05 23:39:54 +08:00
} , {
2016-03-02 00:59:11 +08:00
# two videos embedded via iframe
2015-05-05 23:39:54 +08:00
' url ' : ' http://lifenews.ru/news/153461 ' ,
' info_dict ' : {
' id ' : ' 153461 ' ,
' title ' : ' В Москве спасли потерявшегося медвежонка, который спрятался на дереве' ,
' description ' : ' Маленький хищник не смог найти дорогу домой и обрел временное убежище на тополе недалеко от жилого массива, пока е г о не нашла соседская собака. ' ,
' upload_date ' : ' 20150505 ' ,
2016-03-02 00:59:11 +08:00
} ,
' playlist ' : [ {
' md5 ' : ' 9b6ef8bc0ffa25aebc8bdb40d89ab795 ' ,
' info_dict ' : {
' id ' : ' 153461-video1 ' ,
' ext ' : ' mp4 ' ,
' title ' : ' В Москве спасли потерявшегося медвежонка, который спрятался на дереве (Видео 1)' ,
' description ' : ' Маленький хищник не смог найти дорогу домой и обрел временное убежище на тополе недалеко от жилого массива, пока е г о не нашла соседская собака. ' ,
' upload_date ' : ' 20150505 ' ,
} ,
} , {
' md5 ' : ' ebb3bf3b1ce40e878d0d628e93eb0322 ' ,
' info_dict ' : {
' id ' : ' 153461-video2 ' ,
' ext ' : ' mp4 ' ,
' title ' : ' В Москве спасли потерявшегося медвежонка, который спрятался на дереве (Видео 2)' ,
' description ' : ' Маленький хищник не смог найти дорогу домой и обрел временное убежище на тополе недалеко от жилого массива, пока е г о не нашла соседская собака. ' ,
' upload_date ' : ' 20150505 ' ,
} ,
} ] ,
2015-05-10 02:27:49 +08:00
} , {
' url ' : ' http://lifenews.ru/video/13035 ' ,
' only_matching ' : True ,
2015-05-04 01:24:19 +08:00
} ]
2014-01-31 04:48:00 +08:00
def _real_extract ( self , url ) :
mobj = re . match ( self . _VALID_URL , url )
video_id = mobj . group ( ' id ' )
2015-05-10 02:26:42 +08:00
section = mobj . group ( ' section ' )
2014-01-31 04:48:00 +08:00
2015-05-10 02:26:42 +08:00
webpage = self . _download_webpage (
' http://lifenews.ru/ %s / %s ' % ( section , video_id ) ,
video_id , ' Downloading page ' )
2014-01-31 04:48:00 +08:00
2016-03-02 00:59:11 +08:00
video_urls = re . findall (
r ' <video[^>]+><source[^>]+src=[ " \' ](.+?)[ " \' ] ' , webpage )
iframe_links = re . findall (
r ' <iframe[^>]+src=[ " \' ]((?:https?:)?//embed \ .life \ .ru/embed/.+?)[ " \' ] ' ,
webpage )
if not video_urls and not iframe_links :
2014-02-28 23:52:06 +08:00
raise ExtractorError ( ' No media links available for %s ' % video_id )
2014-01-31 04:48:00 +08:00
2015-06-17 22:28:47 +08:00
title = remove_end (
self . _og_search_title ( webpage ) ,
' - Первый по срочным новостям — LIFE | NEWS ' )
2014-01-31 04:48:00 +08:00
description = self . _og_search_description ( webpage )
view_count = self . _html_search_regex (
2015-05-04 01:11:23 +08:00
r ' <div class= \' views \' > \ s*( \ d+) \ s*</div> ' , webpage , ' view count ' , fatal = False )
2014-01-31 04:48:00 +08:00
comment_count = self . _html_search_regex (
2015-06-17 22:27:38 +08:00
r ' = \' commentCount \' [^>]*> \ s*( \ d+) \ s*< ' ,
webpage , ' comment count ' , fatal = False )
2014-01-31 04:48:00 +08:00
upload_date = self . _html_search_regex (
2015-06-17 22:27:38 +08:00
r ' <time[^>]*datetime= \' ([^ \' ]+) \' ' , webpage , ' upload date ' , fatal = False )
2014-02-10 22:07:41 +08:00
if upload_date is not None :
upload_date = unified_strdate ( upload_date )
2014-01-31 04:48:00 +08:00
2015-05-04 01:24:19 +08:00
common_info = {
' description ' : description ,
' view_count ' : int_or_none ( view_count ) ,
' comment_count ' : int_or_none ( comment_count ) ,
' upload_date ' : upload_date ,
}
2016-03-02 00:59:11 +08:00
def make_entry ( video_id , video_url , index = None ) :
2015-05-04 01:24:19 +08:00
cur_info = dict ( common_info )
cur_info . update ( {
2016-03-02 00:59:11 +08:00
' id ' : video_id if not index else ' %s -video %s ' % ( video_id , index ) ,
' url ' : video_url ,
' title ' : title if not index else ' %s (Видео %s ) ' % ( title , index ) ,
2015-05-04 01:24:19 +08:00
} )
return cur_info
2016-03-02 00:59:11 +08:00
def make_video_entry ( video_id , video_url , index = None ) :
video_url = compat_urlparse . urljoin ( url , video_url )
return make_entry ( video_id , video_url , index )
def make_iframe_entry ( video_id , video_url , index = None ) :
video_url = self . _proto_relative_url ( video_url , ' http: ' )
cur_info = make_entry ( video_id , video_url , index )
cur_info [ ' _type ' ] = ' url_transparent '
2015-05-04 01:24:19 +08:00
return cur_info
2014-02-28 23:52:06 +08:00
2016-03-02 00:59:11 +08:00
if len ( video_urls ) == 1 and not iframe_links :
return make_video_entry ( video_id , video_urls [ 0 ] )
if len ( iframe_links ) == 1 and not video_urls :
return make_iframe_entry ( video_id , iframe_links [ 0 ] )
entries = [ ]
if video_urls :
for num , video_url in enumerate ( video_urls , 1 ) :
entries . append ( make_video_entry ( video_id , video_url , num ) )
if iframe_links :
for num , iframe_link in enumerate ( iframe_links , len ( video_urls ) + 1 ) :
entries . append ( make_iframe_entry ( video_id , iframe_link , num ) )
playlist = common_info . copy ( )
playlist . update ( self . playlist_result ( entries , video_id , title , description ) )
return playlist
2015-05-10 03:03:26 +08:00
class LifeEmbedIE ( InfoExtractor ) :
IE_NAME = ' life:embed '
2016-03-21 23:36:32 +08:00
_VALID_URL = r ' https?://embed \ .life \ .ru/embed/(?P<id>[ \ da-f] {32} ) '
2015-05-10 03:03:26 +08:00
_TEST = {
' url ' : ' http://embed.life.ru/embed/e50c2dec2867350528e2574c899b8291 ' ,
' md5 ' : ' b889715c9e49cb1981281d0e5458fbbe ' ,
' info_dict ' : {
' id ' : ' e50c2dec2867350528e2574c899b8291 ' ,
' ext ' : ' mp4 ' ,
' title ' : ' e50c2dec2867350528e2574c899b8291 ' ,
' thumbnail ' : ' re:http://.* \ .jpg ' ,
}
}
def _real_extract ( self , url ) :
video_id = self . _match_id ( url )
webpage = self . _download_webpage ( url , video_id )
formats = [ ]
for video_url in re . findall ( r ' " file " \ s*: \ s* " ([^ " ]+) ' , webpage ) :
video_url = compat_urlparse . urljoin ( url , video_url )
ext = determine_ext ( video_url )
if ext == ' m3u8 ' :
formats . extend ( self . _extract_m3u8_formats (
video_url , video_id , ' mp4 ' , m3u8_id = ' m3u8 ' ) )
else :
formats . append ( {
' url ' : video_url ,
' format_id ' : ext ,
' preference ' : 1 ,
} )
2015-05-10 10:54:50 +08:00
self . _sort_formats ( formats )
2015-05-10 03:03:26 +08:00
thumbnail = self . _search_regex (
r ' " image " \ s*: \ s* " ([^ " ]+) ' , webpage , ' thumbnail ' , default = None )
return {
' id ' : video_id ,
' title ' : video_id ,
' thumbnail ' : thumbnail ,
' formats ' : formats ,
}