Re: [問題] 如何解析youtube的網址

看板PHP作者 (玉米)時間13年前 (2012/02/28 02:15), 編輯推噓3(308)
留言11則, 4人參與, 最新討論串4/6 (看更多)
最近我在做解析 youtube 網址並且下載這件事情... (然後加上 ffmpeg 轉出 ogg 音樂) 也參考了 Kej 的網站 稍微了解之後,我寫了一份整理在我的網誌 http://magicallove.twbbs.org/wordpress/?p=989 video_id 的取得很簡單,我沒有另外紀錄 等我搞定下載問題會補上去吧XD 目前我解析出來之後遇到一個挺麻煩的問題 這個問題也讓我聯想到 Kej 的網站之所以要大家先下載一份文字檔,再透過 js 解析。 這似乎有點關聯!! 問題狀況是,我解析出來的網址都沒有辦法直接使用 curl 下載 第一次使用 curl "link" > webm 輸出到檔案都會 20秒 timeout 但是緊接著再下一次 curl "link" > webm 就可以運作了 這什麼道理= =a 等我明天睡醒 試試看,再我的伺服器上面讓它先去 curl get_video_info 但是為什麼 Kej 的網站可以第一次另存新檔就成功? 是因為已經有先下載過那份文字檔,等價於我 curl 失敗的那次嗎! 0.0 嗯,越寫越開心,忍不住試了一下 好像果真如我猜測一般~ 如果明天順利的話! 我想個辦法看看能不能把這個功能開發成為一個堪用的 api 給大家呼叫~~~ ※ 引述《Kej (be me)》之銘言: : ※ 引述《kenshieh (Not always blank)》之銘言: : 網址有點眼熟..................... XD : j75Kl7_ERdM 跟 lax-v239.lax 以及 em-ZhJDjayM 跟 ash-v250.ash : 之間應該沒有什麼關係,而只是單純的 server hostname 罷了 : 你可以用 firebug 觀察 flv 檔案的 url,會發現多 reload 個幾次 : hostname 是會變的(應該是影片的 server 有好幾台) : : 懶人做法( 不確定是不是全都可以用, 但隨手試二三個都行 ): : : // $source == '網頁內容' : : $pattern = '/watch_fullscreen\?video_id=([\w-]+)&l=\d+&t=([\w-]+)'; : : if (preg_match('#$pattern#s", $source, $m)) : : { : : echo "GetTube: http://tw.youtube.com/get_video?video_id={$m[1]}&t={$m[2]}"; : : } : 基本上要取得 youtube 的影片位址,最主要的參數就是 video_id 跟 t : 像上面那樣的作法是很 OK 的,我一開始也是這樣的方式做的 : 可是當時間久了或量變大了之後,問題就來了 : 不曉得 youtube 是會偵測你今天總共 request 了幾次還是會記錄傳輸量 : 總之當程式抓網頁抓到一個一定的量的時候,youtube 就會把你的連線擋了 : 過了一段時間之後才會再開放讓你連線 : 當初我就一天到晚被擋,後來只好找 open proxy : 後來我發現了一個方法,不需要找 proxy 也不會被 youtube 擋: : 以 http://www.youtube.com/watch?v=em-ZhJDjayM
為例 : 我們可以知道他 embed 的標籤裡 : 影片的 src 會是 http://www.youtube.com/v/em-ZhJDjayM : 而這個 url 會做 redirect : 最後的網址就像下面這樣:(三行連起來) : http://www.youtube.com/swf/l.swf?video_id=em-ZhJDjayM& : eurl=&iurl=http%3A//img.youtube.com/vi/em-ZhJDjayM/default.jpg& : t=OEgsToPDskLvttI1e7cLfmL15TOMbN24&rel=1&border=0 : 所以程式就可以改成這樣: : (1). 抓原始 url 裡的參數 v : (2). 重新組合成 http://www.youtube.com/v/xxxxxxxxxxx 的格式 : (3). 用 fsockopen 讀取 (2),取得 header 的 Location 的 url : (4). 從 (3) 得到的 url 中,parse 出參數 t : (5). 組合成 http://www.youtube.com/get_video?video_id=$video_id&t=$t 的格式 : 基本上只要做到這個步驟就可以抓的到檔案了,但是你還可以更進一步: : (6). 用 fsockopen 讀取 (5),取得 header 的 Location 的 url : 從 (6) 這步驟得到的 url 就會是像 : http://ash-v250.ash.youtube.com/get_video?video_id=em-ZhJDjayM : 這樣子的 url : that's all~!! : 只要 fsockopen parse_url parse_str 就好 : 不用撈網頁(省流量!),也不用做 regular expression (省腦力!) : 不會被 youtube 擋,也不會因為 open proxy 關了你的站就死翹翹了(我掛了好幾次orz) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 123.50.51.128

02/28 03:37, , 1F
印象中youtube影片實體url會因client端ip不同而不同…
02/28 03:37, 1F

02/28 03:38, , 2F
所以如果要開成api,就相當於每面對一個api call
02/28 03:38, 2F

02/28 03:39, , 3F
就必需從原po的主機抓下來影片後,再傳給api client
02/28 03:39, 3F

02/28 03:40, , 4F
感覺流量會吃很大喔~~但也可能是我記錯啦XDD
02/28 03:40, 4F

02/28 09:19, , 5F
對!抓下來的網址參數的確有ip這欄
02/28 09:19, 5F

02/28 09:19, , 6F
我機器放140.116 如果能成功做成!那我很樂意大家來吃頻寬
02/28 09:19, 6F

02/28 11:23, , 7F
推一下
02/28 11:23, 7F

02/28 18:09, , 8F
推一個,建議可以參考 youtube-dl (python)有現成的了
02/28 18:09, 8F

03/17 12:55, , 9F
哦感謝樓上 我去找找
03/17 12:55, 9F

03/19 11:44, , 10F
python youtube-dl
03/19 11:44, 10F

03/19 11:44, , 11F
wokrs !! 太偉大了!
03/19 11:44, 11F
文章代碼(AID): #1FIyWnVO (PHP)
文章代碼(AID): #1FIyWnVO (PHP)