tło
Chciałem uzyskać informacje o plikach APK (w tym podzielonych plikach APK), nawet jeśli znajdują się one w skompresowanych plikach zip (bez ich dekompresji). W moim przypadku są to różne rzeczy, takie jak nazwa pakietu, kod wersji, nazwa wersji, etykieta aplikacji, ikona aplikacji i czy jest to podzielony plik APK, czy nie.
Pamiętaj, że chcę to wszystko zrobić w aplikacji na Androida, nie używając komputera, więc korzystanie z niektórych narzędzi może być niemożliwe.
Problem
Oznacza to, że nie mogę korzystać z funkcji getPackageArchiveInfo , ponieważ ta funkcja wymaga ścieżki do pliku APK i działa tylko na plikach non-split-apk.
Krótko mówiąc, nie ma do tego żadnej funkcji frameworka, więc muszę znaleźć sposób, jak to zrobić, wchodząc do spakowanego pliku, używając InputStream jako danych wejściowych do parsowania go w funkcji.
Istnieją różne rozwiązania online, w tym poza Androidem, ale nie znam takiego, który jest stabilny i działa we wszystkich przypadkach. Wiele z nich może być dobry nawet dla Androida (przykład tutaj ), ale może się nie powieść podczas analizowania i może wymagać ścieżki pliku zamiast Uri / InputStream.
Co znalazłem i próbowałem
Znalazłem to na StackOverflow, ale niestety, zgodnie z moimi testami, zawsze generuje treść, ale w niektórych rzadkich przypadkach nie jest to poprawna treść XML.
Do tej pory znalazłem nazwy pakietów aplikacji i ich kody wersji, których parser nie może przeanalizować, ponieważ wyjściowa zawartość XML jest nieprawidłowa:
- com.farproc.wifi.analyzer 139
- com.teslacoilsw.launcherclientproxy 2
- com.hotornot.app 3072
- Android 29 (to sama aplikacja systemowa „System Android”)
- com.google.android.videos 41300042
- com.facebook.katana 201518851
- com.keramidas.TitaniumBackupPro 10
- com.google.android.apps.tachyon 2985033
- com.google.android.apps.photos 3594753
Używając przeglądarki XML i sprawdzania poprawności XML , oto problemy z tymi aplikacjami:
- W przypadku # 1, # 2 mam bardzo dziwną treść, zaczynając od
<mnfs
. - W przypadku numeru 3 nie podoba mu się „&” w
<activity theme="resourceID 0x7f13000b" label="Features & Tests" ...
- W przypadku nr 4 na końcu brakowało znacznika końcowego „manifest”.
- W przypadku numeru 5 brakowało wielu tagów końcowych, przynajmniej „filtru intencyjnego”, „odbiornika” i „manifestu”. Może więcej.
- W przypadku numeru 6 z jakiegoś powodu dwukrotnie otrzymał atrybut „allowBackup” w znaczniku „application”.
- Do 7, to ma wartość bez atrybutu w tagu manifestu:
<manifest versionCode="resourceID 0xa" ="1.3.2"
. - W przypadku numeru 8 brakowało dużej ilości treści po uzyskaniu tagów „uses-feature” i nie zawierało końcowego tagu „manifest”.
- W przypadku numeru 9 brakowało dużej ilości treści po uzyskaniu tagów „pozwoleń na użytkowanie” i nie zawierało znacznika końcowego dla „manifestu”
Co zaskakujące, nie znalazłem żadnego problemu ze podzielonymi plikami APK. Tylko z głównymi plikami APK.
Oto kod (dostępny również tutaj ):
MainActivity .kt
class MainActivity : AppCompatActivity() {
override fun onCreate(savedInstanceState: Bundle?) {
super.onCreate(savedInstanceState)
setContentView(R.layout.activity_main)
thread {
val problematicApkFiles = HashMap<ApplicationInfo, HashSet<String>>()
val installedApplications = packageManager.getInstalledPackages(0)
val startTime = System.currentTimeMillis()
for ((index, packageInfo) in installedApplications.withIndex()) {
val applicationInfo = packageInfo.applicationInfo
val packageName = packageInfo.packageName
// Log.d("AppLog", "$index/${installedApplications.size} parsing app $packageName ${packageInfo.versionCode}...")
val mainApkFilePath = applicationInfo.publicSourceDir
val parsedManifestOfMainApkFile =
try {
val parsedManifest = ManifestParser.parse(mainApkFilePath)
if (parsedManifest?.isSplitApk != false)
Log.e("AppLog", "$packageName - parsed normal APK, but failed to identify it as such")
parsedManifest?.manifestAttributes
} catch (e: Exception) {
Log.e("AppLog", e.toString())
null
}
if (parsedManifestOfMainApkFile == null) {
problematicApkFiles.getOrPut(applicationInfo, { HashSet() }).add(mainApkFilePath)
Log.e("AppLog", "$packageName - failed to parse main APK file $mainApkFilePath")
}
if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.LOLLIPOP)
applicationInfo.splitPublicSourceDirs?.forEach {
val parsedManifestOfSplitApkFile =
try {
val parsedManifest = ManifestParser.parse(it)
if (parsedManifest?.isSplitApk != true)
Log.e("AppLog", "$packageName - parsed split APK, but failed to identify it as such")
parsedManifest?.manifestAttributes
} catch (e: Exception) {
Log.e("AppLog", e.toString())
null
}
if (parsedManifestOfSplitApkFile == null) {
Log.e("AppLog", "$packageName - failed to parse main APK file $it")
problematicApkFiles.getOrPut(applicationInfo, { HashSet() }).add(it)
}
}
}
val endTime = System.currentTimeMillis()
Log.d("AppLog", "done parsing. number of files we failed to parse:${problematicApkFiles.size} time taken:${endTime - startTime} ms")
if (problematicApkFiles.isNotEmpty()) {
Log.d("AppLog", "list of files that we failed to get their manifest:")
for (entry in problematicApkFiles) {
Log.d("AppLog", "packageName:${entry.key.packageName} , files:${entry.value}")
}
}
}
}
}
ManifestParser.kt
class ManifestParser{
var isSplitApk: Boolean? = null
var manifestAttributes: HashMap<String, String>? = null
companion object {
fun parse(file: File) = parse(java.io.FileInputStream(file))
fun parse(filePath: String) = parse(File(filePath))
fun parse(inputStream: InputStream): ManifestParser? {
val result = ManifestParser()
val manifestXmlString = ApkManifestFetcher.getManifestXmlFromInputStream(inputStream)
?: return null
val factory: DocumentBuilderFactory = DocumentBuilderFactory.newInstance()
val builder: DocumentBuilder = factory.newDocumentBuilder()
val document: Document? = builder.parse(manifestXmlString.byteInputStream())
if (document != null) {
document.documentElement.normalize()
val manifestNode: Node? = document.getElementsByTagName("manifest")?.item(0)
if (manifestNode != null) {
val manifestAttributes = HashMap<String, String>()
for (i in 0 until manifestNode.attributes.length) {
val node = manifestNode.attributes.item(i)
manifestAttributes[node.nodeName] = node.nodeValue
}
result.manifestAttributes = manifestAttributes
}
}
result.manifestAttributes?.let {
result.isSplitApk = (it["android:isFeatureSplit"]?.toBoolean()
?: false) || (it.containsKey("split"))
}
return result
}
}
}
ApkManifestFetcher.kt
object ApkManifestFetcher {
fun getManifestXmlFromFile(apkFile: File) = getManifestXmlFromInputStream(FileInputStream(apkFile))
fun getManifestXmlFromFilePath(apkFilePath: String) = getManifestXmlFromInputStream(FileInputStream(File(apkFilePath)))
fun getManifestXmlFromInputStream(ApkInputStream: InputStream): String? {
ZipInputStream(ApkInputStream).use { zipInputStream: ZipInputStream ->
while (true) {
val entry = zipInputStream.nextEntry ?: break
if (entry.name == "AndroidManifest.xml") {
// zip.getInputStream(entry).use { input ->
return decompressXML(zipInputStream.readBytes())
// }
}
}
}
return null
}
/**
* Binary XML doc ending Tag
*/
private var endDocTag = 0x00100101
/**
* Binary XML start Tag
*/
private var startTag = 0x00100102
/**
* Binary XML end Tag
*/
private var endTag = 0x00100103
/**
* Reference var for spacing
* Used in prtIndent()
*/
private var spaces = " "
/**
* Parse the 'compressed' binary form of Android XML docs
* such as for AndroidManifest.xml in .apk files
* Source: http://stackoverflow.com/questions/2097813/how-to-parse-the-androidmanifest-xml-file-inside-an-apk-package/4761689#4761689
*
* @param xml Encoded XML content to decompress
*/
private fun decompressXML(xml: ByteArray): String {
val resultXml = StringBuilder()
// Compressed XML file/bytes starts with 24x bytes of data,
// 9 32 bit words in little endian order (LSB first):
// 0th word is 03 00 08 00
// 3rd word SEEMS TO BE: Offset at then of StringTable
// 4th word is: Number of strings in string table
// WARNING: Sometime I indiscriminently display or refer to word in
// little endian storage format, or in integer format (ie MSB first).
val numbStrings = lew(xml, 4 * 4)
// StringIndexTable starts at offset 24x, an array of 32 bit LE offsets
// of the length/string data in the StringTable.
val sitOff = 0x24 // Offset of start of StringIndexTable
// StringTable, each string is represented with a 16 bit little endian
// character count, followed by that number of 16 bit (LE) (Unicode) chars.
val stOff = sitOff + numbStrings * 4 // StringTable follows StrIndexTable
// XMLTags, The XML tag tree starts after some unknown content after the
// StringTable. There is some unknown data after the StringTable, scan
// forward from this point to the flag for the start of an XML start tag.
var xmlTagOff = lew(xml, 3 * 4) // Start from the offset in the 3rd word.
// Scan forward until we find the bytes: 0x02011000(x00100102 in normal int)
run {
var ii = xmlTagOff
while (ii < xml.size - 4) {
if (lew(xml, ii) == startTag) {
xmlTagOff = ii
break
}
ii += 4
}
} // end of hack, scanning for start of first start tag
// XML tags and attributes:
// Every XML start and end tag consists of 6 32 bit words:
// 0th word: 02011000 for startTag and 03011000 for endTag
// 1st word: a flag?, like 38000000
// 2nd word: Line of where this tag appeared in the original source file
// 3rd word: FFFFFFFF ??
// 4th word: StringIndex of NameSpace name, or FFFFFFFF for default NS
// 5th word: StringIndex of Element Name
// (Note: 01011000 in 0th word means end of XML document, endDocTag)
// Start tags (not end tags) contain 3 more words:
// 6th word: 14001400 meaning??
// 7th word: Number of Attributes that follow this tag(follow word 8th)
// 8th word: 00000000 meaning??
// Attributes consist of 5 words:
// 0th word: StringIndex of Attribute Name's Namespace, or FFFFFFFF
// 1st word: StringIndex of Attribute Name
// 2nd word: StringIndex of Attribute Value, or FFFFFFF if ResourceId used
// 3rd word: Flags?
// 4th word: str ind of attr value again, or ResourceId of value
// TMP, dump string table to tr for debugging
//tr.addSelect("strings", null);
//for (int ii=0; ii<numbStrings; ii++) {
// // Length of string starts at StringTable plus offset in StrIndTable
// String str = compXmlString(xml, sitOff, stOff, ii);
// tr.add(String.valueOf(ii), str);
//}
//tr.parent();
// Step through the XML tree element tags and attributes
var off = xmlTagOff
var indent = 0
// var startTagLineNo = -2
while (off < xml.size) {
val tag0 = lew(xml, off)
//int tag1 = LEW(xml, off+1*4);
// val lineNo = lew(xml, off + 2 * 4)
//int tag3 = LEW(xml, off+3*4);
// val nameNsSi = lew(xml, off + 4 * 4)
val nameSi = lew(xml, off + 5 * 4)
if (tag0 == startTag) { // XML START TAG
// val tag6 = lew(xml, off + 6 * 4) // Expected to be 14001400
val numbAttrs = lew(xml, off + 7 * 4) // Number of Attributes to follow
//int tag8 = LEW(xml, off+8*4); // Expected to be 00000000
off += 9 * 4 // Skip over 6+3 words of startTag data
val name = compXmlString(xml, sitOff, stOff, nameSi)
//tr.addSelect(name, null);
// startTagLineNo = lineNo
// Look for the Attributes
val sb = StringBuffer()
for (ii in 0 until numbAttrs) {
// val attrNameNsSi = lew(xml, off) // AttrName Namespace Str Ind, or FFFFFFFF
val attrNameSi = lew(xml, off + 1 * 4) // AttrName String Index
val attrValueSi = lew(xml, off + 2 * 4) // AttrValue Str Ind, or FFFFFFFF
// val attrFlags = lew(xml, off + 3 * 4)
val attrResId = lew(xml, off + 4 * 4) // AttrValue ResourceId or dup AttrValue StrInd
off += 5 * 4 // Skip over the 5 words of an attribute
val attrName = compXmlString(xml, sitOff, stOff, attrNameSi)
val attrValue = if (attrValueSi != -1)
compXmlString(xml, sitOff, stOff, attrValueSi)
else
"resourceID 0x" + Integer.toHexString(attrResId)
sb.append(" $attrName=\"$attrValue\"")
//tr.add(attrName, attrValue);
}
resultXml.append(prtIndent(indent, "<$name$sb>"))
indent++
} else if (tag0 == endTag) { // XML END TAG
indent--
off += 6 * 4 // Skip over 6 words of endTag data
val name = compXmlString(xml, sitOff, stOff, nameSi)
resultXml.append(prtIndent(indent, "</$name>")) // (line $startTagLineNo-$lineNo)
//tr.parent(); // Step back up the NobTree
} else if (tag0 == endDocTag) { // END OF XML DOC TAG
break
} else {
// println(" Unrecognized tag code '" + Integer.toHexString(tag0)
// + "' at offset " + off
// )
break
}
} // end of while loop scanning tags and attributes of XML tree
// println(" end at offset $off")
return resultXml.toString()
} // end of decompressXML
/**
* Tool Method for decompressXML();
* Compute binary XML to its string format
* Source: Source: http://stackoverflow.com/questions/2097813/how-to-parse-the-androidmanifest-xml-file-inside-an-apk-package/4761689#4761689
*
* @param xml Binary-formatted XML
* @param sitOff
* @param stOff
* @param strInd
* @return String-formatted XML
*/
private fun compXmlString(xml: ByteArray, @Suppress("SameParameterValue") sitOff: Int, stOff: Int, strInd: Int): String? {
if (strInd < 0) return null
val strOff = stOff + lew(xml, sitOff + strInd * 4)
return compXmlStringAt(xml, strOff)
}
/**
* Tool Method for decompressXML();
* Apply indentation
*
* @param indent Indentation level
* @param str String to indent
* @return Indented string
*/
private fun prtIndent(indent: Int, str: String): String {
return spaces.substring(0, min(indent * 2, spaces.length)) + str
}
/**
* Tool method for decompressXML()
* Return the string stored in StringTable format at
* offset strOff. This offset points to the 16 bit string length, which
* is followed by that number of 16 bit (Unicode) chars.
*
* @param arr StringTable array
* @param strOff Offset to get string from
* @return String from StringTable at offset strOff
*/
private fun compXmlStringAt(arr: ByteArray, strOff: Int): String {
val strLen = (arr[strOff + 1] shl (8 and 0xff00)) or (arr[strOff].toInt() and 0xff)
val chars = ByteArray(strLen)
for (ii in 0 until strLen) {
chars[ii] = arr[strOff + 2 + ii * 2]
}
return String(chars) // Hack, just use 8 byte chars
} // end of compXmlStringAt
/**
* Return value of a Little Endian 32 bit word from the byte array
* at offset off.
*
* @param arr Byte array with 32 bit word
* @param off Offset to get word from
* @return Value of Little Endian 32 bit word specified
*/
private fun lew(arr: ByteArray, off: Int): Int {
return (arr[off + 3] shl 24 and -0x1000000 or ((arr[off + 2] shl 16) and 0xff0000)
or (arr[off + 1] shl 8 and 0xff00) or (arr[off].toInt() and 0xFF))
} // end of LEW
private infix fun Byte.shl(i: Int): Int = (this.toInt() shl i)
// private infix fun Int.shl(i: Int): Int = (this shl i)
}
Pytania
- Dlaczego dostaję niepoprawną treść XML dla niektórych plików manifestu APK (stąd nie powiodło się dla nich parsowanie XML)?
- Jak mogę go zawsze uruchomić?
- Czy istnieje lepszy sposób na parsowanie pliku manifestu do poprawnego pliku XML? Może lepsza alternatywa, która mogłaby działać z wszystkimi rodzajami plików APK, w tym w plikach spakowanych, bez ich dekompresji?
Odpowiedzi:
Prawdopodobnie będziesz musiał poradzić sobie ze wszystkimi szczególnymi przypadkami, które już zidentyfikowałeś.
Aliasy i odwołania szesnastkowe mogą go pomylić; trzeba by je rozwiązać.
Na przykład cofnięcie się od
manifest
domnfs
co najmniej rozwiązałoby jeden problem:„Cechy i Próby” wymagałoby
TextUtils.htmlEncode()
za&
lub innej konfiguracji parsera.Sprawienie, by parsowało pojedyncze
AndroidManifest.xml
pliki, ułatwiłoby testowanie, ponieważ przy każdym pakiecie może być więcej nieoczekiwanych danych wejściowych - dopóki nie zbliży się do parsera manifestów używanego przez system operacyjny ( kod źródłowy może pomóc). Jak widać, może ustawić pliki cookie do odczytu. Weź tę listę nazw pakietów i skonfiguruj przypadek testowy dla każdego z nich, wtedy problemy są raczej izolowane. Ale głównym problemem jest to, że te pliki cookie najprawdopodobniej nie są dostępne dla aplikacji innych firm.źródło
Wygląda na to, że ApkManifestFetcher nie obsługuje wszystkich przypadków, takich jak tekst (między znacznikami) i deklaracje przestrzeni nazw i, być może, kilka innych rzeczy. Poniżej znajduje się przeróbka ApkManifestFetcher, który obsługuje wszystkie ponad 300 APK na moim telefonie, z wyjątkiem Netflix APK, który ma kilka pustych atrybutów.
Nie wierzę już, że pliki zaczynające się od
<mnfs
mają coś wspólnego z zaciemnianiem, ale są kodowane przy użyciu UTF-8 zamiast UTF-16, który zakłada aplikacja (16 bitów vs 8 bitów). Przerobiona aplikacja obsługuje kodowanie UTF-8 i może analizować te pliki.Jak wspomniano powyżej, przestrzenie nazw nie są poprawnie obsługiwane przez klasę oryginalną lub tę przeróbkę, chociaż przeróbka może ją pominąć. Komentarze w kodzie opisują to nieco.
Mimo to poniższy kod może być wystarczający dla niektórych aplikacji. Lepszym, choć dłuższym, działaniem byłoby użycie kodu z apktool, który wydaje się być w stanie obsłużyć wszystkie pliki APK.
ApkManifestFetcher
źródło