Сначала выделите характерные html признаки начала и конца текста.
Например такая страница:
<html>
<head>
<title></title>
</head>
<body>
<div>Здесь текст</div>
</body>
</html
Значит признак начала - это "<body>", а признак конца "</body>". div затрагивать не будем, т.к. на выходе его порежем.
Затем получаем содержимое в виде строки с помощью функции file_get_contents, предварительно URI документа надо закодить с помощью urlencode(). Дальше с помощью регулярки выдерем текст, вырежем из него html код и получим на выходе только текст.
<?php
$URL = "http://server.com/example.html"; // строка содержит адрес документа
$MainBody = file_get_contents(urlencode($URL));
$begining = "<body>";
$ending = "</body>";
preg_match("/" . preg_quote($begining) . "(*.?)" . preg_quote($ending) . "/", $MainBody, $Body);
$Body = $Body[0]; // Получили "<div>Здесь текст</div>"
$Body = strip_tags($Body); // получаем теперь "Здесь текст"
print ($Body);
?>
ЗЫ в коде могут быть ошибки или опечатки