Как можно определить кодировку текста на пхп

Bicdibus

Участник
Регистрация
5 Мар 2010
Сообщения
497
Реакции
7
Я путем парсинга получаю текст с рандомных страниц сайтов, чарсет в хтмл очень часто не соответствует реальности. В задумке была перекодировка текста в утф-8, но перепробовав много разных вариантов(встроенных в пхп и сторонних бтблиотек) не получаеться даже нормально задетектить утф-8. Мне надо хотя бы определять что текст является утф. Лучшего что удалось достичь это около 70% точность определения, что слишком мало, приемлемо 90-95%.
 

krdma

Гуру форума
Регистрация
1 Июн 2009
Сообщения
147
Реакции
54
responce headers?
 

Bicdibus

Участник
Регистрация
5 Мар 2010
Сообщения
497
Реакции
7
чуток не то мне нужно готовый текст определить
 

Q_BASIC

Хранитель порядка
Регистрация
30 Ноя 2013
Сообщения
516
Реакции
1.239

steelfeet

Создатель
Регистрация
3 Июн 2019
Сообщения
24
Реакции
14
составьте список наиболее часто встречающихся слов, диграмм и определяйте по ним
 
Сверху