[ SOLUCIONADO ] Extraer datos despues de hacer HTTP get

Rbcheca · #1 22/08/15, 07:12:22

Hola, continuando este hilo: http://www.htcmania.com/showthread.php?t=1057026, he decidido abrir un nuevo tema para centrarme en la extracción de los datos que me devuelve un HTTP get.

He conseguido aislar lo que me interesa, que es una url, pero el primer problema que se me presenta es que es una cantidad de datos enorme, y como a mi lo que me interesa es sacar los datos de las últimas 24h, por ejemplo, la primera separación de variable va a ser todo lo que esté antes de la fecha de ayer, el problema es que la fecha en el documento esta en el formato: Fri, 14 Aug 2015, y aqui ya me quedo un poco en blanco, El feed al que le hago el http get solo tiene datos de la última semana, por lo que creo que sería buena idea separar la variable a partir del dia de la semana de ayer, pero el texto está en formato mon, tue, wed etc y aquí ya me pierdo del todo.

La otra opción es la de por día del mes pero tenemos el mismo problema, el formato 14 Aug.

En las pruebas que he hecho, metiendo la fecha manualmente en el separador, he conseguido aislar la url como he dicho, otra duda que me asalta es si puedo buscar por palabras claves la información que está dentro de la variable.

Por favor, solo decirme si voy bien encaminado o si el planteamiento está totalmente errado, y si me podeis dar alguna pista para continuar.

Muuuchas gracias!!!

WillyWeb · #2 22/08/15, 11:21:46

Yo diría que vas por buen camino si estás sacando algo de los que necesitas, ¿no?

Tendrás que estudiar detenidamente ese feed. Ver si tiene bloques identificables. El orden de esos bloques. Una estructura típica del enlace que buscas. Todo eso ayuda.

WillyWeb · #3 22/08/15, 14:20:12

Estoy tonto. Es un feed, claro que tiene estructuras identificables

Tendrá una pequeña cabecera con los datos de la web que origina el feed y luego bloques <item></item> con todos los datos de cada una de las series publicadas. Cada uno de esos bloques tendrá un <title></title> que seguramente tendrá el nombre de la serie y un <link></link> que llevará a su correspondiente página en la que tendrás los enlaces a los torrent. Seguro que tiene más cosas, pero creo que eso es todo lo que necesitas.

Los bloques <item> los puedes sacar con una expresion regular de este tipo...

<item>(.|\s)*?</item>

... en la acción "Buscar y reemplazar". En "Variable" pones "%HTTPD" (contiene el resultado de HTTP Get). Quita las marcas de "Multilínea" y de "Una sola coincidencia". Y en "Almacenar coincidencia en" pones el nombre de una variable local, por ejemplo "%items".

Con eso tienes un array de tasker (%items1, %items2 ... &itemsXX) con todos los <item> del feed. Si haces un bucle que recorra ese array creo que podrás buscar los nombres de serie/peli que te interesan con una simple búsqueda con comodines (*<title>*nombre serie*</title>*). El bucle sería algo así...

For %item en %items() << así haces referencia al array completo

Si encuentras en un %item uno de los nombres que te interesa te sales del bucle y sigues con el proceso.

Ahora toca sacar la URL de la página, que también se puede hace con una expresión regular, pero esta vez (gracias mlesir) es un poco diferente...

(?<=<link>).*?(?=</link>)

En variable pones "%item" y en almacenar resultado pones "%url". Y con eso ya puedes ir a la página de la serie a buscar tus codiciados enlaces .torrent

¿Hasta aquí todo está claro?

Rbcheca · #4 22/08/15, 14:37:27

Está muy claro, muy bien explicado, a ver si soy capaz de llevarlo a cabo, madre mia cuanto sabeis, eso no lo saco yo solo ni en un millon de años.

Me queda la duda de como hacer para que no se repitan resultados de una busqueda a otra, es decir si ma da el resultado que busco "A" y me lo notifica, como hago para que si a la siguiente vez sigue ahi "A" lo omita y no lo tenga en cuenta como resultado valido.

Me pongo a ello enseguida, que pinta muy bien

WillyWeb · #5 22/08/15, 14:47:22

Podrías guardar en un archivo de texto el contenido de <pubDate> de cada <item> que te ha interesado seguir. Cuando proceses el feed por segunda vez tendrás que verificar que una coincidencia de nombre de serie no ha sido procesada antes comprobando que su <pubDate> no está en ese archivo de texto.

WillyWeb · #6 22/08/15, 14:54:56

He visto una posible causa de error

Al buscar el título de la serie quita las etiquetas. Tal y como está no funcionará porque entre esas etiquetas existen retornos de carro. Lo deberías dejar como ... *nombre serie*

Rbcheca · #7 22/08/15, 19:16:00

Bueno, me ha surgido un primer problema que viene por mi total desconocimiento de los elementos nuevos que me has enseñado, antes de nada aclarar que cuando pregunto algo así, es por que ya le he dado mil vueltas a los tutos y a google y no he sacado nada en claro, entiendo que el tiempo de los demás es tan importante como el mio.

Al hacer http get no se me guardan los datos en %HTTPD, por lo que he hecho un leer archivo (el que me ha creado http get) y guardar en la variable %HTPD, y el siguiente paso ok.

Hasta el punto de sacar los bloques de <item> todo claro y funcionando, me ha dejado flipado lo de (.|\s)*?", que me gustaría entender que es, pero he buscado y no he encontrado nada

Luego con lo de "El bucle sería algo así... For %item en %items() << así haces referencia al array completo" entiendo que es lo que en tasker está en "tarea-for" y que entre los parentesis de "%items()" tengoo que poner los terminos que quiero buscar.

Ahí me asalta una duda, ¿tengo que poner el nombre de la serie completo, o vale con unas palabras clave) por ejemplo, ¿tengo que poner "perico el de los palotes hdtv 720p" o puedo buscar por "perico palotes 720p"?

En la siguiente parte, la de "Si encuentras en un %item uno de los nombres que te interesa te sales del bucle y sigues con el proceso." ahi @WillyWeb, lo siento mucho si que no he entendido nada.

Tampoco tengo claro si he hecho la tarea como tu me has dicho:

1.HTTP Get
servidor: "puerto"el feed" "tipo mime: txt/xml" "archivo de salida: archivo.html"

2.leer archivo: archivo.html a %HTPD

3. buscar y reemplazar: variable %HTPD buscar <item>(.|\s)*?</item> "almacenar coincidencias en %items
Luego hago un flash con %items2 y compruebo que me devuelve un resultado correcto de todo el contenido de un "<item></item>"

A partir de ahi me hago la picha un lio y no se por donde seguir, al poner el For %item en %items(), suponiendo que como he dicho está bien, me sale la flechita y ya no se si el buscar y reemplazar va dentro o no.

Cuanto trabajo te estoy dando Willy, si me mandas a freir esparragos lo entenderé perfectamente.

WillyWeb · #8 22/08/15, 20:19:26