Temos pavadinimas: WordPress, Shopify ir PHPFusion programuotojų bendruomenė :: scrap, issaugojimas i log.txt faila

Parašė lukyzas· 2012 Spa. 30 16:10:59
#1

Sveiki, reikia is vieno web istraukt zodi kuris keiciasi gan daznai (1-10min)
struktura:
<html>
<head></head>
<body>zodis</body>
</html>
paskui keiciasi webas i :
<html>
<head></head>
<body>z00d11s1</body>
</html>
paskui vel i
<html>
<head></head>
<body>z0d1s</body>
</html>

Reikia is vieno webo sakykim kaip pvz: www.google.lt/failas.php
istraukti ta zodi ir ikelti i .txt faila ir jeigu jis paskeicia automatiskai kelti i log.txt faila
pvz: pradinis log.txt failas butu sudetas is
z0d1s
paskui butu:
z0d1s
z00d11s
....
....
ir taip iki begalybes kol pats neistrinciau :)

Edit:
Radau viena buda: bet kaip is sito kodo padaryt

<?php
        //simple <span style="border-bottom: 1px dotted black;">html</span> dom biblioteka
        include('simple_html_dom.php');
 
        //filmo url
        $url = 'www.sssss.lt/sss.php';
 
        //gauname svetaines <span style="border-bottom: 1px dotted black;">html</span>
        $html = file_get_html($url);
 
        //gauname filmo reitinga
        $ratio = $html->find('span.rating-rating', 0)->plaintext;
 
        echo $ratio;
?>

kad ieskotu zodi kuris yra <body>zodis</body>

Redagavo lukyzas· 2012 Spa. 30 16:10:15

Parašė maxas66· 2012 Lap. 30 17:11:27
#2


<?php
 
function curl_get_file_contents ($url) {
	$content = FALSE;
 
	if (function_exists("curl_init")) {
		$handle = curl_init();
 
		curl_setopt($handle, CURLOPT_RETURNTRANSFER, 1);
		curl_setopt($handle, CURLOPT_CONNECTTIMEOUT, 3);
		curl_setopt($handle, CURLOPT_URL, $url);
 
		$content = curl_exec($handle);
 
		curl_close($handle);
	} else {
		die("CURL nepalaikomas");
	}
 
	return $content;
}
 
set_time_limit(0);
 
$fp = fopen("log.txt", "a+");
 
$html = curl_get_file_contents("http://www.simplehtmlguide.com/examples/helloworld.html");
 
fwrite($fp, trim($html) . "\r\n");
 
fclose($fp);
 
?>


įsitikink, kad visada struktūra failo bus tokia pat, aišku galėjai ir su preg_* sužaisti, bet DOM berods greitesnis.
O dėl atnaujinimo tau prireiks CRONJOB, arba apkrauk vartotojus ir kišk į dažnai lankomas vietas, tavo pasirinkimas.

Redagavo maxas66· 2012 Gru. 1 18:12:14

Parašė KiraLT· 2012 Gru. 1 00:12:30
#3

Jei yra bodyje ir yra paprastas tekstas, neužtektu tiesiog file_get_content()?

Parašė maxas66· 2012 Gru. 1 18:12:33
#4

Pataisiau, kažkaip nepagalvojau.